GPT-5.4 mini nano 공식 발표 기반
GPT-5.4 mini nano, 싸다고 다 쓰면 안 됩니다
2026년 3월 17일, OpenAI가 GPT-5.4 mini와 nano를 공식 출시했습니다. 가격은 확실히 내려갔습니다. GPT-5.4 대비 mini는 70%, nano는 92% 저렴합니다. 근데 막상 공식 벤치마크를 뜯어보면 “이 구간에선 절대 쓰면 안 되는” 조건이 딱 보입니다. 가격표만 보고 전환하면 나중에 후회할 포인트 두 가지를 먼저 짚겠습니다.
GPT-5.4 mini nano가 실제로 어떤 모델인지
“소형 모델”이라는 말이 이번엔 다른 의미입니다
OpenAI는 이번 발표에서 mini와 nano를 단순히 “저렴한 GPT-5.4″로 소개하지 않았습니다. 공식 발표문에서 명시한 포지션은 “서브에이전트(subagent) 전용 실행 모델”입니다. 큰 모델이 계획을 짜고 판단하면, mini·nano가 그 지시를 빠르게 병렬 실행하는 구조입니다. (출처: OpenAI 공식 발표, 2026.03.17)
ChatGPT에서 mini의 위치도 명확합니다. Free·Go 플랜 사용자는 ‘+’ 메뉴의 Thinking 기능으로 mini를 씁니다. 그 외 유료 플랜은 GPT-5.4 Thinking의 사용량 한도 초과 시 fallback 모델로 mini가 자동 전환됩니다. 즉 직접 “mini를 쓰겠다”고 선택하는 모델이 아닐 수도 있습니다.
가격 구조 — 공식 수치로 직접 계산해봤습니다
GPT-5.4 대비 얼마나 저렴한지, 숫자로 바로 보겠습니다
공식 API 가격표 기준으로 세 모델을 나란히 놓으면 이렇습니다. (출처: OpenAI 공식 발표문, 2026.03.17)
| 모델 | 입력 /1M | 출력 /1M | 컨텍스트 | 제공 채널 |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 400k | API·Codex·Chat |
| GPT-5.4 mini | $0.75 | $4.50 | 400k | API·Codex·Chat |
| GPT-5.4 nano | $0.20 | $1.25 | 400k | API 전용 |
입력 토큰 기준으로 mini는 GPT-5.4의 30%, nano는 8% 수준입니다. 출력도 mini가 30%, nano가 약 8.3%입니다. 100만 토큰을 입력할 때 GPT-5.4로 $2.50을 쓰던 걸 nano로 바꾸면 $0.20으로 줄어듭니다. 대용량 분류·추출 작업에서는 비용이 12분의 1로 내려가는 셈입니다.
단, nano는 API 전용이라는 점을 놓치기 쉽습니다. ChatGPT나 Codex 화면에서는 쓸 수 없고, 직접 API를 연동한 서비스에서만 사용 가능합니다.
코딩·에이전트 성능이 예상보다 높은 이유
“미니 모델은 코딩을 잘 못 한다”는 공식이 깨졌습니다
💡 공식 발표 벤치마크와 실제 사용 데이터를 같이 놓고 보니 이런 차이가 보였습니다. GPT-5.4 mini의 코딩 점수가 플래그십 GPT-5.4와 3.3%p 차이밖에 나지 않는데, 가격은 70% 저렴합니다.
SWE-Bench Pro(Public) 기준으로 GPT-5.4 mini는 54.4%를 기록했습니다. GPT-5.4(57.7%)와 3.3%p 차이입니다. 6개월 전 전임 모델인 GPT-5 mini(45.7%)보다는 8.7%p 높습니다. (출처: OpenAI 공식 발표문, 2026.03.17) 이 수치가 의미하는 건 단순합니다. 코딩 작업에서는 mini를 써도 플래그십과 체감 차이가 거의 없는 상황이 됐다는 뜻입니다.
툴 호출(tool calling) 성능도 주목할 만합니다. τ2-bench(통신 도메인)에서 GPT-5.4 mini는 93.4%를 기록했습니다. GPT-5 mini(74.1%)와 비교하면 19.3%p 차이입니다. (출처: OpenAI 공식 발표문, 2026.03.17) 에이전트 시스템에서 툴 호출이 틀리면 오류가 연쇄적으로 퍼집니다. 이 수치 개선이 실제 에이전트 안정성에 직결됩니다.
OSWorld-Verified(컴퓨터 사용)에서 mini는 72.1%로 GPT-5.4(75.0%)에 거의 붙었습니다. GPT-5 mini(42.0%)와는 30%p 이상 차이가 납니다. 스크린샷을 보고 UI를 해석하는 작업에서도 mini가 플래그십 수준에 근접했다는 뜻입니다.
장문 컨텍스트에서 mini가 무너지는 구간
GPT-5.4 mini를 쓰면 안 되는 작업이 딱 하나 있습니다
⚠️ OpenAI 공식 벤치마크에서 128K~256K 장문 컨텍스트 구간을 확인하면 GPT-5.4 mini의 점수가 79.3%에서 33.6%로 절반 이하로 떨어집니다. 가격 차이만 보고 교체했다가는 품질 문제가 생깁니다.
OpenAI MRCR v2(장문 다중 바늘 찾기) 벤치마크 기준으로, 128K~256K 구간에서 GPT-5.4는 79.3%지만 GPT-5.4 mini는 33.6%로 뚝 떨어집니다. (출처: OpenAI 공식 발표문, 2026.03.17) 45.7%p 차이입니다. 비율로 보면 GPT-5.4 mini의 성능이 GPT-5.4의 42% 수준까지 내려갑니다.
이 숫자가 실제로 중요한 이유는 간단합니다. 긴 계약서 전체를 분석하거나, 수백 페이지짜리 보고서를 요약하거나, 대규모 코드베이스 전체를 한 번에 이해해야 하는 작업에서 mini는 그냥 틀린 답을 낼 확률이 높아집니다. Beam.ai 분석도 같은 결론을 내렸습니다. “mini는 좁게 정의된 서브태스크에서는 성능이 유지되지만, 매우 긴 문서를 넘나드는 깊은 추론 작업은 여기서 제외된다”고 직접 명시했습니다. (출처: Beam.ai GPT-5.4 mini & nano 분석 리포트, 2026.03)
결론적으로, mini와 nano는 좁고 명확하게 정의된 태스크 전용입니다. 긴 문서를 깊이 파고드는 작업은 여전히 플래그십 모델을 써야 합니다.
Codex 할당량 30%의 진짜 의미
할당량 절약 효과를 직접 계산해봤습니다
💡 Codex에서 GPT-5.4와 mini를 함께 쓰는 구조를 공식 문서와 실제 배포 패턴을 같이 놓고 보면, 단순 절감보다 훨씬 복잡한 비용 구조가 보입니다.
OpenAI 공식 발표에 따르면 Codex에서 GPT-5.4 mini를 쓰면 GPT-5.4 할당량의 30%만 소모합니다. (출처: OpenAI 공식 발표문, 2026.03.17) 직관적으로 받아들이면 “같은 할당량으로 3배 넘게 쓸 수 있다”처럼 보입니다. 맞습니다. 하지만 실제로 Codex는 GPT-5.4가 계획·판단을 맡고 mini가 서브태스크를 병렬 실행하는 구조로 설계됩니다.
즉, 단순히 mini로만 전환하는 게 아니라 GPT-5.4와 mini를 동시에 돌리는 상황이 생깁니다. 예를 들어 GPT-5.4가 코드베이스 분석 계획을 짜는 동안 mini 서브에이전트 3개가 파일 탐색을 병렬로 처리한다면, 할당량 소모는 GPT-5.4 1회 + mini 3회(= GPT-5.4 환산 0.9회) = 1.9회가 됩니다. 단순히 mini로 교체했을 때의 0.3회와는 전혀 다른 숫자입니다.
실제로 Reddit 커뮤니티(r/codex)에서도 “mini를 쓰면 Codex 할당량이 생각보다 빠르게 줄어드는 이유가 서브에이전트 병렬 실행 때문”이라는 사용 후기가 이미 여러 건 올라왔습니다. (출처: Reddit r/codex, 2026.03) 할당량 계획을 세울 때는 단일 요청 기준이 아니라 에이전트 실행 횟수 전체를 잡아야 합니다.
Claude Haiku 4.5와 가격 역전이 일어나는 지점
nano가 경쟁사 저가 모델보다 저렴해졌습니다
💡 가격표만 봐도 GPT-5.4 nano가 Claude Haiku 4.5보다 저렴한데, 성능 비교를 같은 기준으로 맞춰보니 생각보다 단순하지 않았습니다.
Claude Haiku 4.5의 API 가격은 입력 $1.00/1M, 출력 $5.00/1M입니다. GPT-5.4 nano는 입력 $0.20/1M, 출력 $1.25/1M입니다. (출처: OpenAI 공식 발표, 2026.03.17 / Anthropic 공식 가격 페이지 기준) 입력 기준으로 nano가 Haiku 4.5의 20% 가격입니다. DataCamp 분석에서도 “OpenAI가 Claude Haiku 가격을 두 경우 모두에서 밑돌았다”고 직접 명시했습니다. (출처: DataCamp GPT-5.4 mini nano 분석, 2026.03)
그런데 성능 비교는 복잡합니다. GPQA Diamond에서 GPT-5.4 nano(82.8%)가 Claude Haiku 4.5보다 9.8%p 앞섭니다. τ2-bench에서도 nano가 9.5%p 앞섭니다. 하지만 컴퓨터 사용(OSWorld) 쪽은 다릅니다. Claude Haiku 4.5가 표준 OSWorld에서 50.7%를 기록했고, GPT-5.4 nano는 더 어려운 OSWorld-Verified에서 39.0%를 기록했습니다. 두 테스트가 다른 버전이라 직접 비교가 어렵지만, 12%p 격차는 쉽게 무시할 수준이 아닙니다. (출처: DataCamp GPT-5.4 mini nano 분석, 2026.03)
정리하면, 분류·추출·랭킹처럼 툴 호출 중심 작업에서는 nano가 Haiku 4.5보다 훨씬 저렴하면서 성능도 앞섭니다. 반면 컴퓨터 사용 자동화에는 nano보다 Haiku 4.5가 여전히 유력한 선택지입니다.
| 모델 | 입력 /1M | GPQA Diamond | OSWorld |
|---|---|---|---|
| GPT-5.4 nano | $0.20 | 82.8% | 39.0% (Verified) |
| Claude Haiku 4.5 | $1.00 | 73.0% (추정) |
50.7% (표준) |
※ OSWorld와 OSWorld-Verified는 서로 다른 버전의 벤치마크로 직접 비교 시 주의 필요. (출처: DataCamp, 2026.03)
Q&A
마치며
그런데 꼭 짚어야 할 부분이 있습니다. mini는 128K 이상 장문 컨텍스트에서 성능이 절반 이하로 떨어집니다. nano는 ChatGPT에서 아예 쓸 수 없습니다. Codex 할당량 절감도 서브에이전트를 병렬로 여러 개 돌리면 생각보다 덜 아낄 수 있습니다.
공식 벤치마크와 실제 데이터를 같이 보면 결론은 명확합니다. mini와 nano는 작업 범위를 좁게 정의했을 때만 제대로 씁니다. “싸니까 다 mini로 바꾸자”가 아니라, 어떤 태스크를 맡길지를 먼저 정하는 게 순서입니다.
본 포스팅 참고 자료
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 가격·벤치마크 수치는 2026.03.17 OpenAI 공식 발표 기준이며, 향후 업데이트로 달라질 수 있습니다. API 가격은 공식 페이지(platform.openai.com/pricing)에서 최신 정보를 직접 확인하시기 바랍니다.











댓글 남기기