3월 17일 OpenAI가 출시한 GPT-5.4 mini·nano — 공식 발표문에 담긴 벤치마크 수치를 그대로 따라가 보니 예상과 다른 그림이 나왔습니다. “AI가 계속 저렴해지고 있다”는 말이 이번엔 그대로 적용되지 않습니다.
GPT-5.4 mini·nano, 뭐가 달라졌나
GPT-5.4 mini와 GPT-5.4 nano는 2026년 3월 17일 OpenAI가 공개한 경량 모델입니다. GPT-5.4 mini는 코딩·추론·멀티모달·도구 사용 전반에서 이전 세대 GPT-5 mini를 크게 뛰어넘으면서 속도도 2배 이상 빨라졌다는 게 공식 발표의 요지입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
두 모델의 포지셔닝은 명확하게 나뉩니다. mini는 ChatGPT·Codex·API 모두에서 쓸 수 있고, nano는 API 전용입니다. ChatGPT Free·Go 사용자는 Thinking 기능(+ 메뉴 → ‘잘 생각하기’)을 통해 mini를 무료로 사용할 수 있습니다. nano는 UI 없이 API로만 붙여야 합니다.
| 항목 | GPT-5.4 mini | GPT-5.4 nano |
|---|---|---|
| 사용 가능 플랫폼 | ChatGPT / Codex / API | API 전용 |
| 컨텍스트 창 | 40만 토큰 | 공식 미공개 |
| API 입력 가격(1M 토큰) | $0.75 | $0.20 |
| API 출력 가격(1M 토큰) | $4.50 | $1.25 |
| Codex 쿼터 소비 | GPT-5.4 대비 30% | Codex 미지원 |
속도는 진짜 3배 빨라졌습니다 — 수치로 확인
공식 발표에서 “GPT-5 mini 대비 2배 이상 빠르다”고 했는데, API 실측치는 그보다 더 큰 차이를 보입니다. GPT-5.4 mini는 초당 약 180~190 토큰, nano는 약 200 토큰을 기록했습니다. 이전 세대 GPT-5 mini가 기본 설정에서 초당 55~60 토큰이었으니, 같은 가격대에서 속도만 따지면 3배 이상 빨라진 셈입니다. (출처: wikidocs HN 분석, 2026.03.17 기준 API 실측)
에이전트 파이프라인에서 이 차이가 왜 중요한지는 간단한 계산으로 확인됩니다. 모델 호출이 100번 이뤄지는 파이프라인에서, 한 번에 200 토큰짜리 응답을 생성할 때 GPT-5 mini(60 tok/s)는 약 333초가 걸립니다. GPT-5.4 mini(185 tok/s)는 같은 100회에 108초. 결과적으로 전체 파이프라인 처리 시간이 225초 줄어듭니다. 실시간 서비스 체감 품질이 달라지는 수준입니다.
경쟁 모델과 비교하면 더 선명해집니다. Google Gemini 3.1 Flash가 약 130 tok/s인 것을 감안하면, 소형 모델 속도 경쟁에서 현재 OpenAI가 앞서 있습니다. 단, 속도 수치는 API 부하 상태·프롬프트 길이에 따라 달라질 수 있습니다.
💡 공식 발표문과 API 실측치를 같이 놓고 보니 이런 차이가 보였습니다
공식 발표는 “GPT-5 mini 대비 2배+”라고 했지만, API 실측 기준 초당 토큰 수로 환산하면 3배를 넘습니다. 공식 수치는 레이턴시 기준이고, 실측치는 처리량(throughput) 기준이라 수치가 다르게 보이는 겁니다. 같은 “2배 빠름”이라도 어떤 지표인지를 먼저 확인해야 합니다.
가격표 뒤집어 보면 보이는 것
“AI는 계속 싸지고 있다”는 말을 그대로 믿고 접근하면 예산 계획이 틀어질 수 있습니다. 솔직히 말하면, 이번 mini·nano는 이전 세대 같은 이름 모델 대비 절대 가격이 올랐습니다.
| 모델 | 입력 $(/1M) | 출력 $(/1M) | 이전 세대 대비 |
|---|---|---|---|
| GPT-5.4 mini (신규) | $0.75 | $4.50 | 입력 3배↑ |
| GPT-5 mini (이전) | $0.25 | $2.00 | 기준 |
| GPT-5.4 nano (신규) | $0.20 | $1.25 | 입력 4배↑ |
| GPT-5 nano (이전) | $0.05 | $0.40 | 기준 |
예를 들어 입력 1,000만 토큰·출력 300만 토큰을 한 달에 처리한다고 하면, GPT-5 mini 기준으로는 입력 $2.50 + 출력 $6.00 = 월 $8.50이었던 게, GPT-5.4 mini로 바꾸면 입력 $7.50 + 출력 $13.50 = 월 $21.00이 됩니다. 단순 교체만으로 월 비용이 2.5배 늘어납니다. 성능 개선으로 재시도 횟수가 줄어드는 효과를 감안해도, 분류·태깅 같은 단순 반복 작업에서는 이 차이를 상쇄하기 어렵습니다.
nano가 이전 세대보다 느린 벤치마크가 있습니다
막상 벤치마크 표를 가로로 읽어보면 불편한 숫자가 눈에 걸립니다. OSWorld-Verified(컴퓨터 GUI 조작 능력 측정) 항목에서 GPT-5.4 nano는 39.0%를 기록했는데, 이전 세대인 GPT-5 mini는 42.0%였습니다. 신제품이 구제품보다 낮은 수치를 보인 겁니다. (출처: OpenAI 공식 발표 벤치마크 테이블, 2026.03.17)
💡 발표 자료의 벤치마크 표를 세로가 아니라 가로로 읽으니 보이지 않던 수치가 보였습니다
OpenAI 발표문은 “nano가 GPT-5 nano 대비 크게 향상됐다”고 강조합니다. 틀린 말은 아닙니다. 하지만 같은 표에서 nano와 GPT-5 mini를 가로로 놓고 보면 OSWorld 항목만큼은 역전이 발생합니다. nano를 “저렴한 컴퓨터 사용 에이전트 서브태스크용”으로 선택하려는 분들은 이 수치가 결정에 직접 영향을 줍니다.
왜 이런 일이 생기는지 OpenAI가 공식 이유를 밝히지 않았습니다. 다만 OSWorld는 실제 화면 캡처를 해석하고 클릭·입력을 수행하는 CUA(Computer-Using Agent) 능력을 측정하는데, nano의 경량 아키텍처가 이 과제에서 요구하는 시각적 맥락 파악에 bottleneck을 만들 가능성이 있습니다.
반면 mini는 같은 OSWorld에서 72.1%로, 인간 기준선인 72.4%에 통계적으로 무의미한 차이까지 좁혔습니다. 불과 1년 전 SOTA 모델들이 30~40%대에 머물렀던 것을 생각하면, mini의 이 수치는 놀라운 수준입니다. 하지만 nano는 같은 세대 모델임에도 37%p 낮습니다. 컴퓨터 사용 태스크라면 nano보다 mini가 맞습니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% ⚠️ | 42.0% |
| SWE-Bench Pro | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
⚠️ nano의 OSWorld 수치(39%)가 GPT-5 mini(42%)보다 낮은 것은 공식 벤치마크에 그대로 기재된 수치입니다.
긴 문서 처리, 생각보다 많이 다릅니다
| 구간 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano |
|---|---|---|---|
| 64K~128K 토큰 구간 | 86.0% | 47.7% | 44.2% |
| 128K~256K 토큰 구간 | 79.3% | 33.6% ⚠️ | 33.1% ⚠️ |
128K~256K 토큰 구간에서 GPT-5.4는 79.3%를 유지하는 반면, mini는 33.6%로 절반 이하로 떨어집니다. 컨텍스트 창이 40만 토큰이라고 해도, 실제 긴 문서에서 특정 정보를 정확하게 찾아야 하는 작업에서는 mini와 GPT-5.4 사이에 2.4배 차이가 납니다.
대용량 코드베이스 분석이나 긴 계약서 리뷰, 장시간 대화 히스토리를 기반으로 한 분석처럼 128K 토큰을 초과하는 컨텍스트가 필요한 작업이라면, mini로 교체하는 것보다 GPT-5.4를 그대로 쓰는 쪽이 정확도 면에서 낫습니다. 비용을 아끼려다 결과 품질이 크게 떨어질 수 있습니다.
실제로 어디에 써야 손해가 없나
정리해 보면, GPT-5.4 mini와 nano는 잘 맞는 곳에 쓰면 강력하고, 잘못된 곳에 쓰면 이전 세대보다 더 비싼 값에 낮은 결과를 받는 경우가 생깁니다.
✅ mini가 진짜 빛나는 경우
코딩 에이전트 서브태스크, 컴퓨터 사용(GUI 조작), 멀티모달 스크린샷 처리처럼 짧은 컨텍스트에서 빠른 응답이 반복적으로 필요한 워크플로우에서 mini는 거의 GPT-5.4 수준을 내면서 쿼터는 30%만 씁니다. Codex 환경에서 복잡한 계획은 GPT-5.4가 세우고, 반복적인 코드 검색·파일 리뷰는 mini 서브에이전트에게 넘기는 구조가 현재 가장 효율적인 운영 방식입니다. (출처: OpenAI Codex 공식 문서, 2026.03.17)
⚠️ nano를 쓸 때 반드시 조심해야 할 함정
nano는 분류·데이터 추출·랭킹 같은 단순 작업에 최적화돼 있습니다. 그런데 에이전트 파이프라인에서 nano를 하위 에이전트로 쓸 때 자주 나타나는 실수가 있습니다. 상위 오케스트레이터가 전체 메시지 히스토리를 그대로 nano에게 넘기는 경우입니다. 이러면 “저렴하다”고 선택한 nano가 3~5만 토큰의 불필요한 컨텍스트를 처리하게 돼, 비용과 속도 이점을 스스로 깎아먹습니다. (출처: wikidocs HN 개발자 실사용 피드백, 2026.03.17)
nano의 실익이 나오는 구간은 입력 컨텍스트를 짧게 정제해서 넘길 수 있는 경우에 한정됩니다. 실측 기준으로 nano의 비용 절감 효과가 확실히 나타나는 임계 컨텍스트 크기에 대한 공개 데이터는 아직 없습니다.
❌ mini·nano보다 GPT-5.4가 맞는 경우
128K 토큰을 넘는 긴 문서 처리, 코딩 에이전트에서 한 번에 긴 추론이 필요한 작업(SWE-Bench 기준 mini의 high effort는 254초, 반면 GPT-5.4 full의 low effort는 171초), 그리고 컴퓨터 사용 에이전트의 하위 태스크로 nano를 쓰려는 경우(OSWorld 39% < GPT-5 mini 42%)에는 mini·nano가 최선이 아닙니다. (출처: OpenAI 공식 벤치마크 및 wikidocs 분석, 2026.03.17)
Q&A 5가지
마치며 — 총평
하지만 “경량 모델 = 저렴한 모델”이라는 전제는 이번에 성립하지 않습니다. GPT-5 mini에서 GPT-5.4 mini로 그대로 교체하면 API 비용이 3배 올라갑니다. nano 역시 이전 세대 nano보다 4배 비쌉니다. 그리고 nano는 컴퓨터 사용 태스크에서 GPT-5 mini보다 성능이 낮고, mini는 128K 토큰을 넘는 구간에서 정확도가 절반 이하로 떨어집니다.
결론적으로, mini·nano가 빛나는 건 짧은 컨텍스트·빠른 반복 호출·Codex 서브에이전트 이 세 가지 조건이 맞아 떨어질 때입니다. 그 바깥에서는 기대와 다른 결과를 받을 수 있습니다. “어디에 쓸 건지”를 먼저 따져보는 게, 새 모델이 나올 때마다 더 중요해지고 있습니다.
📚 본 포스팅 참고 자료
-
OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano (2026.03.17)
https://openai.com/index/introducing-gpt-5-4-mini-and-nano/ -
OpenAI 공식 블로그 (한국어) — GPT-5.4 mini 및 nano 출시 (2026.03.17)
https://openai.com/ko-KR/index/introducing-gpt-5-4-mini-and-nano/ -
Simon Willison — GPT-5.4 mini and nano, which can describe 76,000 photos for $52 (2026.03.17)
https://simonwillison.net/2026/Mar/17/mini-and-nano/ -
wikidocs — GPT-5.4 Mini와 Nano, 소형 모델이 프론티어를 재정의하다 (2026.03.17)
https://wikidocs.net/blog/@jaehong/9441/ -
OpenAI Developers — Codex Subagents 공식 문서
https://developers.openai.com/codex/subagents/
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 모든 가격·벤치마크 수치는 2026년 3월 17일 OpenAI 공식 발표 기준이며, 이후 업데이트로 내용이 달라질 수 있습니다.

댓글 남기기