OpenAI 공식 기준
GPT-5.4 mini · nano
GPT-5.4 mini, 싸다는 말 진짜일까요?
플래그십보다 70% 싸다고 하는데, 막상 전 세대 GPT-5 mini랑 비교하면 3배 비싸졌습니다. Long context에서는 성능이 절반으로 꺾입니다. 공식 벤치마크 수치를 그대로 가져왔습니다.
GPT-5.4 mini가 뭔지 30초 정리
GPT-5.4 mini와 GPT-5.4 nano는 2026년 3월 17일(현지시간) OpenAI가 공식 출시한 소형 모델 라인업입니다. GPT-5.4 mini는 코딩, 도구 사용, 멀티모달 추론, 대규모 서브에이전트 작업을 목적으로 설계됐고, GPT-5.4 nano는 그보다 더 작은 단위인 분류·데이터 추출·단순 에이전트 작업에 최적화돼 있습니다. (출처: OpenAI 공식 발표, 2026.03.17)
이 두 모델은 API, Codex, ChatGPT(Free·Go 플랜 포함) 전반에서 즉시 사용할 수 있습니다. ChatGPT에서 GPT-5.4 Thinking을 고르면 mini로 자동 라우팅되는 구조입니다.
💡 공식 발표문과 실제 API 가격표를 나란히 놓고 보니 기존 포스팅들이 빠뜨린 포인트가 보였습니다. “플래그십 대비 저렴”이라는 표현과 “전 세대 대비 가격”은 전혀 다른 이야기입니다.
컨텍스트 윈도우는 mini·nano 모두 400K 토큰입니다. 플래그십 GPT-5.4의 1.05M 토큰보다 절반 이상 작습니다. 이 숫자는 뒤에서 중요한 의미를 가집니다.
| 모델 | 입력 | 출력 | 컨텍스트 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 1.05M |
| GPT-5.4 mini | $0.75 | $4.50 | 400K |
| GPT-5.4 nano | $0.20 | $1.25 | 400K |
| GPT-5 mini (전 세대) | $0.25 | $2.00 | 400K |
(출처: OpenAI 공식 API 가격표, 2026.03.17 기준 / 단위: 100만 토큰당 USD)
“플래그십의 94%인데 가격은 70% 싸다” — 이 말이 숨기는 것
OpenAI 공식 발표에서 GPT-5.4 mini는 SWE-bench Pro 54.4%를 기록했습니다. 플래그십 GPT-5.4의 57.7%와 3.3%포인트 차이. OSWorld-Verified(컴퓨터 사용 능력)에서도 72.1% vs 75.0%로 사실상 동일한 수준입니다. (출처: OpenAI 공식 발표, 2026.03.17) 성능 차이가 거의 없으면서 가격은 70% 낮으니 “압도적 가성비”라는 표현이 나오는 게 당연합니다.
그런데 이 비교에는 기준점이 숨어 있습니다. 플래그십 대비 70% 싸다는 것이지, AI 모델 전체 기준으로 싼 게 아닙니다. 전 세대 GPT-5 mini의 입력 가격은 $0.25였습니다. GPT-5.4 mini는 $0.75입니다. 3배 오른 겁니다. (출처: OpenAI 공식 API 가격표, 2026.03.17) nano도 마찬가지입니다. GPT-5 nano는 $0.05였는데, GPT-5.4 nano는 $0.20으로 4배 올랐습니다.
📊 전 세대 대비 가격 변화를 수치로 계산하면
• GPT-5 mini 입력: $0.25/1M → GPT-5.4 mini: $0.75/1M (+200%, 3배)
• GPT-5 nano 입력: $0.05/1M → GPT-5.4 nano: $0.20/1M (+300%, 4배)
“소형 모델이 점점 싸진다”는 내러티브와 달리, 절대 가격은 세대마다 오르고 있습니다. 성능 대비 가격은 개선됐지만, 절대 금액은 반대로 움직입니다.
물론 성능이 획기적으로 향상된 만큼 “이름만 같은 후속 모델”이 아니라 “한 등급 위 성능을 한 등급 아래 가격에 제공한다”는 시각도 타당합니다. API 예산을 최적화하는 입장에서는 비교 기준을 명확히 잡아야 합니다. mini를 GPT-5.4 대신 쓰면 70% 절약, GPT-5 mini 대신 쓰면 3배 비용 증가입니다. 두 가지 사실이 동시에 참입니다.
Long context에서 성능이 절반으로 꺾이는 이유
GPT-5.4 mini는 코딩과 에이전트 작업에서 플래그십의 94% 수준을 보이지만, 긴 문서를 처리할 때는 완전히 다른 그림이 나옵니다. OpenAI 공식 발표의 MRCR(Multi-Needle In A Haystack) 테스트 결과를 직접 보면 이렇습니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | 차이 |
|---|---|---|---|
| MRCR 8-needle 64K~128K | 86.0% | 47.7% | -38.3%p |
| MRCR 8-needle 128K~256K | 79.3% | 33.6% | -45.7%p |
| OSWorld (컴퓨터 사용) | 75.0% | 72.1% | -2.9%p |
(출처: OpenAI GPT-5.4 mini/nano 공식 발표, 2026.03.17)
코딩·에이전트에서는 3% 차이지만, 128K 이상의 문서를 수십 개 세부 사항을 추적하며 처리하는 작업에서는 45%포인트 이상 벌어집니다. 200페이지짜리 계약서나 대형 코드베이스 전체를 한 번에 파악해야 하는 경우라면 플래그십을 쓰는 게 맞습니다.
💡 mini의 컨텍스트 윈도우 자체는 400K로 충분히 깁니다. 문제는 윈도우 크기가 아니라, 긴 컨텍스트 안에서 여러 정보를 동시에 추적하는 능력입니다. 이 둘은 다른 능력입니다.
따라서 “long context 작업에 mini를 쓰면 비용이 70% 줄어들 거야”라는 계획은 실측해보면 예상과 다를 수 있습니다. 문서 내 8개 이상의 세부 정보를 교차 추적해야 하는 작업은 mini로 처리 시 오답률이 올라갈 수 있습니다.
nano를 서브에이전트로 쓸 때 역효과가 나는 경우
nano는 분류·데이터 추출·단순 에이전트 작업에 최적화돼 있고, 가격은 출력 기준으로 플래그십의 12분의 1입니다. 직관적으로는 에이전트 파이프라인에서 nano를 서브에이전트로 넣으면 비용이 크게 줄어들 것 같습니다. 그런데 이 구조를 쓰는 실무자들 사이에서 나오는 피드백이 있습니다.
오케스트레이터가 nano에 작업을 넘길 때, 전체 메시지 히스토리를 그대로 붙여서 전달하는 경우가 많습니다. “저렴한 추출 단계”인데 막상 처리하는 토큰 수가 3만~5만 개에 달하면, nano의 비용 이점이 사라집니다. 컨텍스트를 먼저 요약해서 넘기거나 필요한 부분만 잘라서 보내지 않으면, “nano를 쓰는데 왜 이렇게 비용이 나오지?”라는 상황이 됩니다.
🔧 실제 파이프라인에서 nano가 의미 있게 싸지는 조건
• 상위 단계 컨텍스트를 2,000토큰 이하로 압축해서 넘길 때
• 작업이 단일 단계로 끝나는 단순 분류·추출·랭킹일 때
• 병렬 호출이 수백~수천 건이 되는 대규모 배치일 때
컨텍스트를 그대로 내려보내면 nano의 저가 이점이 실질적으로 소멸합니다.
OpenAI는 공식적으로 “GPT-5.4가 계획·조율을 담당하고, mini 또는 nano가 병렬 실행”하는 2계층 구조를 권장합니다. (출처: OpenAI 공식 발표, 2026.03.17) 이 구조가 실제로 비용 효율적이려면, 각 계층에 넘어가는 컨텍스트 크기를 명시적으로 관리해야 합니다.
경쟁 모델과 나란히 놓으면
GPT-5.4 mini가 출시된 같은 날, 구글의 Gemini 3.1 Flash-Lite와 Anthropic의 Claude Haiku 4.5도 소형 모델 경쟁의 비교 대상에 오릅니다. 공식 벤치마크 수치를 나란히 놓으면 이렇습니다.
| 모델 | GPQA Diamond | SWE-bench | 입력 가격/1M |
|---|---|---|---|
| GPT-5.4 mini | 88.0% | 54.4% (Pro) | $0.75 |
| Gemini 3.1 Flash-Lite | 86.9% | — | $0.25 |
| Claude Haiku 4.5 | — | 73.3% (Verified) | $1.00 |
(출처: OpenAI 공식 발표 2026.03.17 / Google AI for Developers Gemini 3.1 Flash-Lite / Anthropic Claude API Docs 2026.03 기준)
GPQA Diamond(박사급 과학 추론)에서 GPT-5.4 mini(88.0%)와 Gemini 3.1 Flash-Lite(86.9%)는 1%포인트 차이입니다. 그런데 가격은 mini가 3배 비쌉니다. 순수 텍스트 추론과 비용이 우선이라면 Gemini 3.1 Flash-Lite가 더 유리한 셈입니다.
반면 OpenAI 생태계(컴퓨터 사용·Codex·tool search·hosted shell·apply patch)를 이미 쓰고 있다면, 그 인프라 위에서 mini를 쓰는 게 맞습니다. Claude Haiku 4.5는 SWE-bench Verified 73.3%로 코딩 성능이 높지만, 이 수치는 GPT-5.4 mini가 SWE-bench Verified 기준으로 직접 비교 공개를 하지 않아 1:1 대입이 어렵습니다. OpenAI는 Verified 대신 Pro 기준을 사용했습니다.
💡 같은 “소형 모델”이라도 벤치마크 기준이 다릅니다. SWE-bench Pro vs SWE-bench Verified는 같은 시험이 아닙니다. 수치를 그대로 비교하기 전에 어떤 데이터셋인지 확인하는 게 먼저입니다.
실제로 어느 작업에 쓰면 맞는가
OpenAI가 공식 발표에서 Codex에 적용한 구조를 보면 설계 의도가 드러납니다. Codex 안에서 mini를 쓰면 플래그십 대비 할당량을 30%만 소모하고, nano는 3분의 1 수준입니다. 즉 Codex 서브에이전트 반복 호출 구조에서 mini의 이점이 가장 크게 나타납니다. (출처: OpenAI 공식 발표, 2026.03.17)
GPT-5.4 mini가 맞는 상황
코드 리뷰, 파일 검색, 반복 실행 서브에이전트, UI 자동화, 멀티모달 추론처럼 단일 작업 단위가 짧고 반복이 많은 경우에 mini의 가성비가 실제로 작동합니다. OSWorld-Verified 72.1%는 인간 기준선 72.4%와 통계적으로 차이가 없습니다. 화면을 보고 버튼을 클릭하는 GUI 자동화에서 사람 수준에 도달했다는 뜻입니다.
GPT-5.4 nano가 맞는 상황
분류·데이터 추출·랭킹·단순 서브에이전트처럼 입력이 짧고 반복 횟수가 수천~수만 건인 배치 작업에서 nano의 비용 구조가 빛납니다. nano로 SWE-bench Pro 52.4%를 기록한 것 자체가, 전 세대 GPT-5 mini(45.7%)를 넘는 수치입니다. 코딩 보조 작업에서도 nano가 이전 세대 mini보다 낫습니다.
플래그십 GPT-5.4를 유지해야 하는 상황
128K 토큰을 넘는 문서에서 여러 세부 정보를 동시에 추적하거나, 복잡한 다단계 추론이 최종 의사결정에 영향을 주는 작업이라면 플래그십을 유지해야 합니다. MRCR 128K~256K에서 mini 33.6% vs 플래그십 79.3%라는 격차는 실무에서 오답 비율 차이로 직결됩니다.
✅ 간단한 라우팅 기준
• 단일 작업, 컨텍스트 짧음, 반복 많음 → nano
• 코딩·에이전트·멀티모달, 중간 복잡도 → mini
• 긴 문서 다중 추적, 최종 판단·계획 → GPT-5.4 플래그십
Q&A
Q1. GPT-5.4 mini는 무료로 쓸 수 있나요?
ChatGPT Free와 Go 플랜 사용자도 ‘GPT-5.4 Thinking’ 옵션을 선택하면 자동으로 mini 모델로 연결됩니다. 단, 사용량 한도가 적용되고 Free 플랜은 처리 속도가 제한될 수 있습니다. 무제한에 가까운 사용은 API 직접 연동이 현실적입니다. (출처: OpenAI 공식 발표, 2026.03.17)
Q2. GPT-5.4 nano는 코딩에 쓸 수 있나요?
SWE-bench Pro 52.4%는 전 세대 GPT-5 mini(45.7%)보다 높은 수치입니다. 단순 코드 생성이나 에러 수정 같은 단일 작업은 nano로도 충분할 수 있습니다. 다만 복잡한 다단계 추론이나 대형 코드베이스 전체를 파악하는 작업에서는 mini 이상을 쓰는 게 안전합니다. (출처: OpenAI 공식 발표, 2026.03.17)
Q3. Gemini 3.1 Flash-Lite랑 가성비 비교를 하면?
순수 텍스트 추론 성능은 거의 비슷합니다(GPQA Diamond: mini 88.0%, Flash-Lite 86.9%). 가격은 Gemini 3.1 Flash-Lite가 $0.25로 3배 저렴합니다. OpenAI 생태계(Computer Use, Codex, tool search 등)가 필요하면 mini, 그렇지 않으면 Flash-Lite가 비용 면에서 유리합니다. (출처: Google AI for Developers, OpenAI 공식 발표 2026.03)
Q4. mini를 쓰면 Codex 할당량이 절약되나요?
OpenAI 공식 발표에 따르면 Codex에서 mini를 쓰면 플래그십 대비 30%의 할당량만 소모됩니다. 실질적으로 같은 구독 한도 안에서 약 3.3배 더 많은 Codex 작업을 처리할 수 있다는 의미입니다. nano는 더 적은 할당량을 사용합니다. (출처: OpenAI 공식 발표, 2026.03.17)
Q5. 소형 모델이 세대를 거듭할수록 더 싸지는 건가요?
성능 대비 가격(price-performance)은 개선되고 있지만, 절대 가격은 오히려 오르는 추세입니다. GPT-5 mini $0.25 → GPT-5.4 mini $0.75로 3배 인상됐고, nano도 4배 올랐습니다. “AI가 계속 싸진다”는 표현은 성능 기준이지, 절대 금액 기준이 아닙니다. 두 세대 뒤에는 mini가 지금의 플래그십 가격에 도달할 수도 있습니다.
마치며
GPT-5.4 mini는 분명히 잘 만든 모델입니다. 코딩과 에이전트 작업에서 플래그십의 94% 수준을 유지하면서 가격은 70% 낮췄고, OSWorld 컴퓨터 사용 능력에서는 인간 기준선에 사실상 도달했습니다.
다만 “싸다”는 표현은 항상 비교 대상이 있습니다. 플래그십 대비로는 싸고, 전 세대 대비로는 비쌉니다. Long context 작업에서는 플래그십의 절반 이하 성능이 나오고, nano를 서브에이전트로 쓸 때는 컨텍스트 관리를 제대로 하지 않으면 기대한 비용 절감이 나오지 않습니다.
AI 인프라 비용의 실질적인 절감은 가장 비싼 모델 가격이 내려가서가 아니라, 소형 모델의 성능이 올라와서 이루어집니다. GPT-5.4 mini와 nano는 그 흐름의 현재 위치를 보여주는 모델입니다. 어떤 작업에 어떤 모델을 라우팅할지 구체적으로 설계하는 사람에게 실질적인 도구가 됩니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano
https://openai.com/ko-KR/index/introducing-gpt-5-4-mini-and-nano/ - Gemini Developer API 가격 책정 (Google AI for Developers, 2026.03 기준)
https://ai.google.dev/gemini-api/docs/pricing?hl=ko - OpenAI 공식 API 모델 문서 — GPT-5.4 mini
https://developers.openai.com/api/docs/models/gpt-5.4-mini - Anthropic Claude API Docs — Models Overview (Claude Haiku 4.5)
https://docs.anthropic.com/en/docs/about-claude/models/overview
본 포스팅은 2026년 3월 25일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 수록된 벤치마크 수치는 OpenAI 공식 발표(2026.03.17) 기준이며, 실제 사용 환경과 설정에 따라 결과가 달라질 수 있습니다.







댓글 남기기