GPT-5.4 mini · nano 기준
OpenAI 공식 발표 2026.03.17
GPT-5.4 mini, Sonnet 4.6 지능에 70% 싼 이유
2026년 3월 17일, OpenAI가 GPT-5.4 mini와 nano를 공식 출시했습니다. 커뮤니티 반응은 하나였습니다. “Claude Sonnet 4.6 지능인데 70% 싸고 3배 빠르다고?” — 벤치마크만 보면 맞는 말입니다. 막상 뜯어보면 이 말이 맞는 조건과 틀리는 조건이 명확하게 갈립니다.
GPT-5.4 mini · nano, 지금 정확히 어떤 모델인가
OpenAI가 2026년 3월 17일 공식 발표한 GPT-5.4 mini와 nano는 GPT-5.4 full 모델의 다운사이즈 버전이 아닙니다. OpenAI 공식 발표문에 이렇게 적혀 있습니다 — “These models are built for the kinds of workloads where latency directly shapes the product experience.” 서브에이전트, 코딩 어시스턴트, 멀티모달 실시간 처리처럼 응답 속도가 곧 제품 품질이 되는 자리에 최적화된 전용 모델입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
GPT-5.4 mini는 API, Codex, ChatGPT 모두에서 사용할 수 있습니다. 반면 GPT-5.4 nano는 API 전용입니다. ChatGPT에서 mini는 Free·Go 사용자에게 Thinking 기능으로 열려 있고, 나머지 플랜에서는 GPT-5.4 Thinking 한도가 초과됐을 때 자동 대체 모델로 동작합니다. 이 구조를 모르면 “왜 갑자기 응답 속도가 빨라졌지?” 하고 의아할 수 있습니다.
가격 구조는 아래와 같습니다.
| 모델 | 입력 / 1M 토큰 | 출력 / 1M 토큰 | 캐시 입력 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | $0.25 |
| GPT-5.4 mini | $0.75 | $4.50 | $0.075 |
| GPT-5.4 nano | $0.20 | $1.25 | $0.02 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | — |
출처: OpenAI 공식 발표문 (2026.03.17), simonwillison.net (2026.03.17)
공식 벤치마크로 본 실력 — 숫자가 의미하는 것
OpenAI가 xhigh 추론 모드 기준으로 공개한 벤치마크 수치를 보면, GPT-5.4 mini의 코딩 성능은 상당합니다. SWE-Bench Pro에서 mini가 54.4%를 기록했는데, 이는 GPT-5.4(57.7%)와 3.3%p 차이에 불과하고 직전 모델인 GPT-5 mini(45.7%)는 8.7%p 넘어섭니다. 실제 코드베이스에서 버그를 잡는 능력이 이전 mini 세대와 확연히 달라졌다는 뜻입니다. (출처: OpenAI 공식 발표문, 2026.03.17)
툴 호출 정확도도 눈에 띕니다. τ2-bench(통신 분야 에이전트 툴 사용 벤치마크)에서 GPT-5.4 mini는 93.4%를 기록했고 GPT-5 mini는 74.1%였습니다. 단순 정확도 수치보다 중요한 건 해석입니다 — 에이전트 시스템에서 툴 호출 오류는 조용히 쌓이다가 나중에 터지는 버그와 같습니다. 19.3%p 차이는 오류 빈도가 그만큼 줄어든다는 뜻입니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro | 57.7% | 54.4% | 52.4% | 45.7% |
| OSWorld-Verified (컴퓨터 사용) | 75.0% | 72.1% | 39.0% | 42.0% |
| GPQA Diamond (과학 추론) | 93.0% | 88.0% | 82.8% | 81.6% |
| τ2-bench (툴 호출) | 98.9% | 93.4% | 92.5% | 74.1% |
출처: OpenAI 공식 발표문 (openai.com/index/introducing-gpt-5-4-mini-and-nano/, 2026.03.17) — xhigh 추론 모드 기준
Sonnet 4.6보다 70% 싸다는 말이 맞는 조건
“GPT-5.4 mini는 Claude Sonnet 4.6과 비슷한 지능인데 70% 저렴하다”는 커뮤니티 요약은 숫자로는 정확합니다. 입력 기준으로 Sonnet 4.6은 1M 토큰당 $3.00, GPT-5.4 mini는 $0.75입니다. 차이가 4배, 즉 mini 쪽이 75% 저렴합니다. (출처: simonwillison.net, 2026.03.17) 그런데 이 비교가 유효한 건 잘 정의된 단기 작업에 한정됩니다.
코딩 어시스턴트, 특정 파일 검토, 스크린샷 해석, 데이터 분류처럼 작업 범위가 명확하고 컨텍스트 창이 짧게 유지되는 케이스에서는 mini가 full GPT-5.4에 근접하는 성능을 내면서 가격 차이를 온전히 누릴 수 있습니다. 이것이 OpenAI가 “서브에이전트 역할에 최적화”라고 포지셔닝한 이유입니다.
💡 공식 발표 흐름과 실제 요금 구조를 같이 보니 이런 차이가 보였습니다
nano의 가격 경쟁력은 더 눈에 띕니다. $0.20/1M 입력이면 사진 7만 6,000장을 설명하는 데 약 $52입니다. (출처: simonwillison.net, 2026.03.17) 이미지 배치 처리처럼 “품질이 6~70%여도 되니까 빠르고 싸야 하는” 케이스에선 nano가 현실적인 선택지가 됩니다. Gemini 3.1 Flash-Lite($0.25/1M)보다도 싼 가격입니다.
아무도 안 짚어주는 성능 급락 구간
여기서부터가 핵심입니다. “mini가 full 5.4에 가깝다”는 말은 OSWorld(72.1% vs 75.0%)나 SWE-Bench(54.4% vs 57.7%)처럼 짧고 명확한 작업에서는 사실입니다. 그런데 롱 컨텍스트 구간으로 가면 얘기가 완전히 달라집니다.
MRCR v2 롱 컨텍스트 벤치마크(128K~256K 구간)에서 GPT-5.4는 79.3%를 기록했는데 GPT-5.4 mini는 33.6%였습니다. (출처: OpenAI 공식 발표문, 2026.03.17) 반토막도 아니고, 절반 이하로 내려갑니다. 오랜 대화 맥락을 유지하거나 긴 문서를 참조해 최종 판단을 내려야 하는 작업에서는 mini를 쓰는 게 오히려 결과를 망칩니다.
⚠️ mini를 쓰면 안 되는 상황
긴 계약서·보고서 전체를 참조해 결론을 내야 할 때, 수십 회 이상 대화가 쌓인 장기 프로젝트 컨텍스트에서 최종 판단을 요구할 때 — 이런 케이스에서 mini를 쓰면 문서를 읽는 척은 하지만 후반부 내용을 실질적으로 놓칩니다. OpenAI가 공식 발표문에서 mini의 롱 컨텍스트 한계를 직접 표에 실은 이유가 있습니다.
Reddit 실사용 후기를 보면 같은 패턴이 나옵니다. 사용자 selfVAT는 “5.4 mini를 몇 시간 써봤는데, 조금만 복잡한 코딩 작업에선 Sonnet만 못하다. 결국 Sonnet으로 수습했다”고 적었습니다. (r/accelerate, 2026.03.18) 벤치마크는 xhigh 추론 모드 기준인데 실제 ChatGPT나 API 호출에서 추론 모드를 매번 최고로 올리는 사용자는 많지 않다는 점도 감안해야 합니다.
Codex 서브에이전트에서 mini가 30% 쿼터인 이유
OpenAI Codex 안에서 GPT-5.4 mini는 GPT-5.4 쿼터의 30%를 소비합니다. (출처: OpenAI 공식 발표문, 2026.03.17) 이 구조를 제대로 이해하면 비용 계산이 달라집니다. GPT-5.4 작업 1개를 mini 서브에이전트 3개로 나눠 병렬 처리하면 같은 쿼터로 할 수 있는 작업량이 3배가 됩니다. 단순히 “mini가 싸다”가 아니라, 오케스트레이터(GPT-5.4)가 계획하고 mini가 실행하는 구조를 만들면 비용 효율이 비선형적으로 올라갑니다.
💡 계층형 멀티모델 구조가 실제로 어떻게 작동하는지 직접 계산해봤습니다
예를 들어 Codex 쿼터가 100이라면, GPT-5.4 단일 모델로 100번 작업합니다. mini를 서브에이전트로 쓰면 같은 쿼터로 mini 작업을 약 333번 처리할 수 있습니다(100 ÷ 0.3 = 약 333회). 오케스트레이터가 판단하고 mini가 반복 실행하는 구조에서, 단순 반복성 작업(코드베이스 탐색, 파일 리뷰, 문서 처리)은 mini에 위임하는 게 총비용 기준으로 훨씬 유리합니다.
OpenAI 공식 발표는 “Instead of using one model for everything, developers can compose systems where larger models decide what to do and smaller models execute quickly at scale”이라고 직접 명시하고 있습니다. 이건 설계 방향을 공식화한 것입니다.
nano는 언제 쓰고 mini는 언제 쓰나 — 실용 구분선
OpenAI는 공식 발표에서 nano 용도를 분류(classification), 데이터 추출(data extraction), 랭킹(ranking), 단순 코딩 서브에이전트로 못 박았습니다. nano는 SWE-Bench Pro에서 52.4%로 GPT-5 mini(45.7%)를 앞서지만, OSWorld(컴퓨터 사용)에서는 39.0%로 뚝 떨어집니다. UI 스크린샷을 해석하거나 컴퓨터를 직접 조작하는 케이스에는 nano가 맞지 않습니다.
mini는 단기 범위 내에서 전문가 수준 작업까지 커버합니다. SWE-Bench Pro 54.4%, OSWorld 72.1%, GPQA Diamond 88.0%는 이를 뒷받침합니다. 단, 128K 토큰이 넘는 장문 컨텍스트, 최종 의사결정, 복잡한 멀티스텝 추론에서는 full GPT-5.4나 Sonnet 4.6을 유지하는 게 낫습니다.
실용 구분선 정리
- nano 적합: 이미지 배치 설명, 텍스트 분류, 로그 파싱, 짧은 코드 서브태스크
- mini 적합: 코딩 어시스턴트, UI 스크린샷 해석, 파일 단위 검토, 멀티모달 처리
- full GPT-5.4 또는 Sonnet 4.6 유지: 128K+ 장문 참조, 프로젝트 전체 설계, 최종 판단 레이어
실사용 커뮤니티 반응 중 흥미로운 분석이 있습니다 — “벤치마크가 포화 상태에 접어들어 수치만으로는 차이를 못 느낀다. Opus 4.6을 Gemini 3.1 Pro로 바꾸니 2~3배 체감 차이가 났는데, 벤치마크엔 안 보인다.” (r/accelerate, Many_Consequence_337, 2026.03.18) 이 말은 mini 선택에도 적용됩니다 — 수치가 비슷해 보여도 실제 체감은 작업 성격에 따라 크게 갈릴 수 있습니다.
Q&A 5가지
마치며
GPT-5.4 mini는 분명 강합니다. 2주 전에 나온 GPT-5.4 full 모델에 가까운 코딩·툴 사용 성능을, 가격은 Sonnet 4.6의 25% 수준으로 냅니다. 그런데 솔직히 말하면, “mini가 Sonnet 4.6 지능”이라는 표현은 절반만 맞습니다. 짧고 명확한 작업에서는 그 말이 통하지만, 긴 문서를 참조하거나 복잡한 멀티스텝 판단이 필요한 자리에선 성능이 급격히 밀립니다.
이번 발표의 진짜 의미는 가격 경쟁이 아닙니다. OpenAI가 공식적으로 “큰 모델이 계획하고 작은 모델이 병렬로 실행한다”는 계층형 멀티모델 아키텍처를 공식 설계 패턴으로 인정했다는 점입니다. 앞으로 서비스를 만들 때 단일 모델을 고집하는 것보다 오케스트레이터와 실행자를 분리하는 구조가 더 현실적인 선택이 될 수 있습니다.
nano는 배치 처리·분류·단순 서브태스크에서 가격 대비 쓸 만한 옵션입니다. API를 직접 쓰는 개발자라면 먼저 nano를 시험해보고, 품질이 필요한 구간에서만 mini나 full 모델로 올리는 방식이 지금 시점에서 가장 합리적인 접근입니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 24일 기준으로 작성됐습니다. OpenAI 서비스 정책·가격·UI·기능은 업데이트로 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 최신 정보는 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다.







댓글 남기기