GPT-5.4 mini / nano
GPT-5.4 mini, 저렴할수록 이 한계가 커집니다
OpenAI가 2026년 3월 17일 공개한 GPT-5.4 mini와 nano. 가격만 보면 매력적인데, 막상 벤치마크를 뜯어보니 “이 구간만 넘어가면 다른 모델이 됩니다”라는 조건이 붙어 있습니다. 결론부터 말씀드리면, 짧은 작업에서는 플래그십 수준이 맞고, 긴 맥락이 필요한 작업에서는 성능이 반토막 납니다.
mini와 nano, 뭐가 다른가 — 공식 스펙 한눈에
OpenAI는 2026년 3월 17일, GPT-5.4 mini와 GPT-5.4 nano를 동시에 공개했습니다. 두 모델 모두 GPT-5.4의 핵심 구조를 가져오되, 속도와 비용 효율에 최적화한 경량 버전입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
| 구분 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano |
|---|---|---|---|
| 입력 토큰($/1M) | $2.50 | $0.75 | $0.20 |
| 출력 토큰($/1M) | $15.00 | $4.50 | $1.25 |
| 컨텍스트 윈도우 | 400K | 400K | 270K |
| ChatGPT 접근 | Plus/Pro 이상 | Free·Go 포함 | API 전용 |
| Codex 쿼터 소비 | 100% | 30% | API 전용 |
nano는 현재 ChatGPT에서 직접 선택할 수 없고 API 전용입니다. mini는 Free·Go 사용자도 ‘+’ 메뉴의 Thinking 기능을 통해 쓸 수 있습니다. 이 차이만으로도 두 모델의 실제 활용 범위는 꽤 크게 갈립니다.
nano가 이전 mini를 이기는 이유
GPT-5.4 mini와 nano를 처음 봤을 때 가장 눈에 띈 숫자는 코딩 벤치마크 결과였습니다. SWE-Bench Pro(Public) 기준으로 GPT-5.4 nano는 52.4%를 기록했는데, 이전 세대인 GPT-5 mini는 45.7%에 그쳤습니다. (출처: OpenAI 공식 발표, 2026.03.17) nano가 mini를 이긴 겁니다. 가장 작은 모델이 전 세대 중간 모델을 추월했다는 뜻입니다.
💡 공식 벤치마크를 세대 기준으로 나란히 놓고 보니 이런 차이가 보였습니다
| 벤치마크 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini(구) |
|---|---|---|---|
| SWE-Bench Pro | 54.4% | 52.4% | 45.7% |
| OSWorld-Verified | 72.1% | 39.0% | 42.0% |
| GPQA Diamond | 88.0% | 82.8% | 81.6% |
| Terminal-Bench 2.0 | 60.0% | 46.3% | 38.2% |
출처: OpenAI 공식 블로그 (2026.03.17), 모든 수치는 xhigh reasoning effort 기준
OSWorld-Verified(컴퓨터 사용 능력 평가)에서는 nano가 오히려 GPT-5 mini(42.0%)보다 낮은 39.0%를 기록합니다. 코딩 능력은 세대가 올라갔지만, 실시간 스크린 해석처럼 순간 판단이 필요한 작업에서는 nano가 mini 계열 내에서 여전히 하위권입니다. 아직 “범용으로 다 되는 nano”는 아닌 셈입니다.
긴 문서 작업에선 조심해야 하는 수치
GPT-5.4 mini의 컨텍스트 윈도우는 400K로 full 모델과 동일하게 표기됩니다. 하지만 실제 성능이 어떻게 달라지는지는 숫자가 직접 말해줍니다. OpenAI가 공개한 Long-context 벤치마크 MRCR v2(8-needle)를 기준으로 64K~128K 구간에서 mini는 47.7%를 기록합니다. (출처: OpenAI 공식 발표, 2026.03.17) 같은 구간 GPT-5.4 full은 86.0%입니다. GPT-5.4 mini가 긴 문서에 들어가면 정확도가 거의 반토막이 납니다.
📊 컨텍스트 길이별 정확도 비교 (MRCR v2, 8-needle)
| 구간 | GPT-5.4 full | GPT-5.4 mini | GPT-5.4 nano |
|---|---|---|---|
| 64K~128K | 86.0% | 47.7% | 44.2% |
| 128K~256K | 79.3% | 33.6% | 33.1% |
출처: OpenAI 공식 발표 (2026.03.17) / xhigh reasoning effort 기준
이 수치가 의미하는 바는 명확합니다. 분량이 긴 계약서, 코드베이스 전체 리뷰, 수십 페이지 보고서 분석처럼 100K 토큰이 넘어가는 작업에서는 mini나 nano를 쓰면 절반 가까운 정보를 놓칠 수 있습니다. “컨텍스트 400K 지원”이라는 스펙은 사실이지만, 그 400K 전체 구간에서 안정적인 성능이 보장되지는 않습니다.
OpenAI 공식 발표문에도 long-context 결과는 별도 항목으로 분리해서 표기하고 있습니다. 짧게 쓸 때와 길게 쓸 때 다른 모델로 봐야 합니다.
API 요금, ‘mini 계열’이라 착각하면 손해
GPT-5.4 mini를 이전 GPT-5 mini의 드롭인 교체 모델로 쓰려다가 요금 충격을 받은 사례가 이미 커뮤니티에서 나오고 있습니다. Reddit의 r/AI_Agents와 r/codex에서 한 개발자가 직접 지적한 것처럼, GPT-5.4 mini의 입력 토큰 요금은 $0.75/1M으로 GPT-5 mini($0.25/1M) 대비 정확히 3배 올랐습니다. (출처: OpenAI API Pricing 페이지, 2026.03.17)
💡 같은 ‘mini’인데 세대 교체 후 요금이 이렇게 달라집니다
| 모델 | 입력($/1M) | 출력($/1M) | 입력 배수 |
|---|---|---|---|
| GPT-5 mini (이전) | $0.25 | $2.00 | 기준 |
| GPT-5.4 mini (신규) | $0.75 | $4.50 | 3배 |
| GPT-5.4 nano (신규) | $0.20 | $1.25 | 0.8배 |
출처: OpenAI API Pricing (openai.com/ko-KR/api/pricing, 2026.03.17 기준)
역설적으로, 요금이 이전 mini보다 훨씬 저렴한 건 nano입니다. GPT-5 mini($0.25)보다 nano($0.20)가 20% 더 쌉니다. 코딩·분류·데이터 추출처럼 단순하고 반복적인 작업을 대량 처리하는 파이프라인이라면, 오히려 nano가 요금 측면에서 더 유리한 선택입니다.
월 출력 토큰이 2억 개 규모인 파이프라인을 기준으로 계산하면, GPT-5.4 full 출력 요금은 약 $3,000, mini는 약 $900, nano는 약 $250입니다. 같은 파이프라인에서 모델만 바꿔도 비용 차이가 12배까지 납니다.
GPT-5.4 + mini + nano, 계층 구조로 쓰는 법
OpenAI가 이번 발표에서 가장 강조한 포인트가 하나 있습니다. 세 모델을 함께 쓰는 “AI 팀” 구조입니다. 공식 발표문에는 GPT-5.4가 계획·조율·최종 판단을 담당하고, mini가 코드베이스 탐색·PR 초안·스크린샷 해석 같은 서브태스크를 병렬로 빠르게 처리하며, nano는 분류·엔티티 추출·랭킹처럼 단순하고 대량인 마이크로태스크를 맡는 구조가 제시되어 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)
💡 공식 발표문과 실제 Codex 서브에이전트 흐름을 같이 놓고 보니 이런 차이가 보였습니다
GPT-5.4 (오케스트레이터)
전체 계획 수립, 복잡한 추론, 결과 통합 및 최종 판단
GPT-5.4 mini (실행 에이전트)
코드 검색·수정, 대형 파일 리뷰, 스크린샷 해석 — GPT-5.4 쿼터의 30%만 사용
GPT-5.4 nano (마이크로 에이전트)
분류, 데이터 추출, 랭킹, 반복 단순 작업 — API 전용, 최저 단가
Codex에서 서브에이전트를 직접 지정하거나 프롬프트로 선언할 수 있습니다. Codex 공식 문서(developers.openai.com/codex/subagents)에 따르면 서브에이전트는 명시적으로 요청했을 때만 생성되고, 각자 독립적인 모델·툴 작업을 수행하므로 토큰 소비가 늘어납니다. 이 점은 설계 단계에서 미리 고려해야 합니다.
실제 사용자 후기를 보면 “에이전트 작업의 80%를 소형 모델로 돌리고 복잡한 추론 단계에서만 대형 모델로 올리면 비용이 5배 절감됐다”는 경험이 공유되고 있습니다. (출처: Reddit r/AI_Agents, 2026.03.17) 이 구조를 쓰려면 어떤 작업이 mini로 충분하고 어디서 full이 필요한지를 사전에 명확히 구분하는 게 핵심입니다.
ChatGPT에서 실제로 어디까지 쓸 수 있나
GPT-5.4 mini는 ChatGPT Free 및 Go 사용자도 접근할 수 있지만, 방식이 조금 다릅니다. 채팅 입력창 ‘+’ 메뉴에서 Thinking을 선택하면 mini가 활성화됩니다. Plus·Go 사용자는 3시간마다 GPT-5.3으로 최대 160개 메시지를 쓸 수 있고, 한도 초과 시 자동으로 mini 버전으로 전환됩니다. (출처: OpenAI Help Center, 2026.03.17)
한 가지 주목할 점이 있습니다. GPT-5.3 Instant에서 GPT-5.4 Thinking으로의 자동 전환은 주간 Thinking 한도(Plus 기준 주당 3,000개)에 카운트되지 않습니다. 시스템이 자동으로 올려준 것은 빠져나가지 않습니다.
📋 요금제별 GPT-5.4 mini 접근 방식
| 요금제 | mini 접근 방법 | 한도 |
|---|---|---|
| Free | ‘+’ 메뉴 → Thinking 선택 | 한도 초과 시 자동 전환 |
| Go | Thinking 활성화 후 | 5시간마다 최대 10개 |
| Plus | GPT-5.4 Thinking 한도 초과 시 | 주당 3,000개 Thinking 후 fallback |
| Pro/Business | 직접 선택 가능 | 악용 방지 가드레일 내 무제한 |
출처: OpenAI Help Center (help.openai.com, GPT-5.3 and GPT-5.4 in ChatGPT, 2026.03.17)
nano는 ChatGPT 인터페이스에서 선택할 수 없고 현재 API 전용입니다. 개인 사용자보다는 API 파이프라인을 운영하는 개발자 대상입니다. 향후 ChatGPT에 직접 통합될지는 아직 공개 일정이 없습니다.
경쟁 모델과 비교 — 어디서 쓰면 유리한가
같은 경량 모델군에서 직접 비교해볼 수 있는 선택지가 몇 가지 있습니다. Simon Willison이 직접 정리한 요금 비교에 따르면, GPT-5.4 nano의 입력 단가는 $0.20/1M으로 구글의 Gemini 3.1 Flash-Lite($0.25/1M)보다 저렴합니다. (출처: simonwillison.net, 2026.03.17)
| 모델 | 입력($/1M) | 출력($/1M) | 특징 |
|---|---|---|---|
| GPT-5.4 mini | $0.75 | $4.50 | 코딩·컴퓨터 사용 강점 |
| GPT-5.4 nano | $0.20 | $1.25 | 분류·추출 대량 처리 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 대화·문서 처리 안정적 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 속도 우선, long-context 안정 |
가격만 보면 nano가 경쟁력 있습니다. 하지만 장시간 컨텍스트가 필요한 작업이라면 Gemini 3.1 Flash-Lite처럼 긴 맥락에서 성능이 상대적으로 안정적인 모델이 나을 수도 있습니다. 커뮤니티의 실제 벤치마크(aibenchy.com)에서는 GPT-5.4 nano가 full 대비 80% 정확도를 내면서 10K 콜 기준 비용이 $1.64로 gpt-5.4($20.30)의 약 8%에 불과했다는 결과도 나왔습니다. (출처: Rent_South, Reddit r/AI_Agents, 2026.03.17) 규모가 커질수록 nano 비용 우위가 눈에 띄게 커집니다.
솔직히 말하면, GPT-5.4 mini는 가격이 이전 mini의 3배가 됐기 때문에 단순 교체보다는 긴 추론이 필요한 에이전트 서브태스크 담당으로 포지션이 이동한 느낌입니다. 단순하고 반복적인 대량 처리가 목적이라면 nano 또는 경쟁사 경량 모델을 같이 검토하는 게 맞습니다.
자주 묻는 질문
마치며
GPT-5.4 mini와 nano는 분명히 인상적인 모델입니다. nano가 이전 세대 mini를 SWE-Bench Pro에서 추월했다는 사실은 경량 모델의 세대 격차가 얼마나 빠르게 좁혀지고 있는지를 잘 보여줍니다.
단, 짧은 작업에서의 높은 성능과 긴 문서에서의 급격한 정확도 하락은 다른 이야기입니다. 400K 컨텍스트라는 숫자만 보고 긴 분석 작업에 투입했다가 결과가 달라진다면, 비용을 아끼려다 더 큰 검수 비용이 생길 수 있습니다. “저렴할수록 이 한계가 커진다”는 말이 그냥 나온 게 아닙니다.
이 부분이 좀 아쉬웠습니다. 스펙표에 컨텍스트 길이만 적혀 있고, 실제 긴 맥락에서 성능 변화를 본문에서 명시해주는 게 아닌, 벤치마크 표를 직접 봐야 알 수 있는 구조였습니다. 막상 써보면 다른 경험이 나올 수 있는 부분입니다. 짧고 반복적인 작업 중심이라면 nano를 우선 검토하고, 추론이 깊은 서브태스크라면 mini, 대용량 문서 전체를 다뤄야 할 때는 full 모델로 가는 게 지금 시점에서 가장 현실적인 선택입니다.
📌 본 포스팅 참고 자료
- OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano
https://openai.com/index/introducing-gpt-5-4-mini-and-nano/ - OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT
https://help.openai.com/ko-kr/articles/11909943 - OpenAI API Pricing 공식 페이지
https://openai.com/ko-KR/api/pricing/ - Simon Willison’s Weblog — GPT-5.4 mini and nano 요금 정리 (2026.03.17)
https://simonwillison.net/2026/Mar/17/mini-and-nano/
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. GPT-5.4 mini 및 nano의 요금·한도·지원 모델은 OpenAI 정책에 따라 예고 없이 변경될 수 있으며, 최신 정보는 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다. 본문 내 수치는 2026.03.17 공식 발표 기준입니다.

댓글 남기기