GPT-5.4 mini 공식 스펙
GPT-5.4 mini, 무료 Thinking인데
이 조건엔 안 맞습니다
2026년 3월 18일, OpenAI가 GPT-5.4 mini와 nano를 공개했습니다. Free 플랜에서도 Thinking 기능이 쓰인다는 게 핵심입니다. 근데 솔직히 말하면, “무조건 이득”이라는 말은 절반만 맞습니다. 가격 구조를 뜯어보면 전작보다 최대 4배 비싸졌고, 128K 토큰을 넘어가는 순간 성능도 무너지기 시작합니다.
Free 플랜도 Thinking된다 — 정확히 어떻게?
무료 사용자가 쓸 수 있는 방법
다만 여기서 한 가지 짚어야 할 게 있습니다. 이 모델은 모델 선택기에서 직접 고를 수가 없어요. Plus·Pro·Team 사용자에게는 GPT-5.4 Thinking의 사용 한도가 꽉 찼을 때만 자동으로 mini가 대체 투입됩니다. 즉, 유료 사용자에게 mini는 “선택지”가 아니라 “폴백(fallback)”입니다.
Enterprise 설정은 다릅니다
Enterprise 고객은 Auto 라우팅의 기본값을 GPT-5.4 mini로 직접 설정하는 옵션이 있습니다. 비용을 절감하면서 안정적인 Thinking 성능을 원하는 팀에서 실질적으로 활용할 수 있는 포인트입니다. (출처: OpenAI 모델 릴리스 노트, 2026.03.18)
성능이 플래그십에 얼마나 붙었나 — 공식 수치로 확인
💡 공식 발표문과 실제 벤치마크 수치를 나란히 놓고 보니, “미니 모델”이라는 이름이 주는 선입견과 실제 점수 사이에 꽤 큰 괴리가 보였습니다.
코딩·컴퓨터 사용 벤치마크
OpenAI 공식 발표 기준으로, GPT-5.4 mini는 SWE-Bench Pro에서 54.4%를 기록했습니다. 플래그십 GPT-5.4가 57.7%이니 3.3%p 차이입니다. 벤치마크 수치만 보면 “거의 같다”고 느끼기 쉽지만, 전작 GPT-5 mini가 45.7%였던 것과 비교하면 실질적인 도약입니다. (출처: OpenAI, Introducing GPT-5.4 mini and nano, 2026.03.17)
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro | 57.7% | 54.4% | 52.4% | 45.7% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
출처: OpenAI 공식 발표, Introducing GPT-5.4 mini and nano (2026.03.17). xhigh reasoning effort 기준.
컴퓨터 사용(Computer Use) 성능이 특히 눈에 띕니다. OSWorld-Verified에서 72.1%로, GPT-5 mini의 42.0%보다 30%p 높습니다. 전작 mini 두 개를 합친 것보다 더 나은 수준입니다. 에이전틱 자동화 작업에서 이 차이가 실제로 체감됩니다.
Terminal-Bench 2.0에서는 60.0%로 GPT-5.4의 75.1%와 거리가 있습니다. 장시간 실행되는 터미널 에이전트 작업에서는 플래그십과 격차가 존재합니다.
“작은 모델이니 저렴하다”는 말이 이번엔 틀렸습니다
💡 “mini = 싸다”는 공식이 이번에는 그대로 적용되지 않습니다. 공식 가격표와 직전 mini 모델을 나란히 놓으면 숫자가 달라집니다.
전작 대비 가격 인상 폭이 가파릅니다
OpenAI 공식 API 가격 페이지 기준으로 정리하면 이렇습니다. GPT-5.4 mini의 입력 토큰 가격은 백만 개당 $0.75입니다. 반면 GPT-5 mini는 $0.25였습니다. 정확히 3배입니다. 출력 토큰은 $4.50 vs $2.00으로 2.25배입니다. (출처: OpenAI API Pricing 페이지, 2026.03 기준)
| 모델 | 입력 (1M tokens) | 출력 (1M tokens) | 인상 배율 |
|---|---|---|---|
| GPT-5.4 mini | $0.75 | $4.50 | 입력 3x / 출력 2.25x |
| GPT-5.4 nano | $0.20 | $1.25 | 입력 4x / 출력 3.125x |
| GPT-5 mini (전작) | $0.25 | $2.00 | — |
| GPT-5 nano (전작) | $0.05 | $0.40 | — |
출처: OpenAI API Pricing (openai.com/api/pricing), 2026.03.23 확인.
nano는 더 심합니다. 입력이 4배, 출력이 3.125배 올랐습니다. 이 가격 인상은 성능 향상으로 정당화된다는 게 OpenAI의 입장이지만, 기존에 GPT-5 mini·nano를 대규모로 호출하던 API 사용자라면 월 비용 시뮬레이션을 먼저 해봐야 합니다.
반면 경쟁사인 Anthropic Claude Haiku 4.5는 입력 $1 / 출력 $5입니다. GPT-5.4 nano의 $0.20 / $1.25와 비교하면 nano가 더 저렴합니다. 단, 성능 비교는 사용된 벤치마크 변형이 달라 직접 비교가 어렵습니다. (출처: DataCamp 분석, 2026.03)
128K 이상에서 조용히 무너지는 구간
💡 “400K 컨텍스트 윈도우”라는 숫자 뒤에 공식 발표문에서 확인되는 실측 수치가 있습니다. 구간별로 보면 이야기가 달라집니다.
컨텍스트 길이에 따른 성능 낙폭
⚠️ 실사용 주의 구간
긴 PDF 문서, 대용량 코드베이스, 멀티턴 대화 이력이 누적된 작업처럼 128K 토큰을 넘어가는 입력을 자주 다루는 경우라면, GPT-5.4 mini의 장문 컨텍스트 성능은 플래그십과 상당한 차이가 있습니다. 컨텍스트가 짧은 일반 질의응답이나 코딩 보조 작업에서는 이 한계가 체감되지 않습니다.
그래프 해석 시 주의할 점
OpenAI가 제시한 성능-비용 그래프는 Y축이 35%에서 시작합니다. 실제 성능 차이를 시각적으로 과장해서 보여주는 구조입니다. 그래프만 보면 모델 간 격차가 크게 느껴지지만, 0부터 시작하는 차트로 다시 그리면 차이가 많이 좁혀집니다. (출처: DataCamp 분석, 2026.03) 수치를 직접 확인하는 게 중요합니다.
nano는 mini의 저가 버전이 아닙니다
💡 nano와 mini를 단순히 “등급 차이”로 보면 잘못 쓰게 됩니다. 같은 벤치마크에서도 두 모델의 용도가 갈라지는 지점이 공식 수치에서 명확히 드러납니다.
컴퓨터 사용에서 nano가 역전당하는 현상
OSWorld-Verified에서 GPT-5.4 nano는 39.0%를 기록했습니다. 그런데 전작인 GPT-5 mini는 같은 벤치마크에서 42.0%를 받았습니다. nano가 mini보다 3%p 낮습니다. 더 최신 모델인데 특정 영역에서 전작 mini에 밀리는 구간이 존재한다는 뜻입니다. nano는 컴퓨터 사용 작업용으로 설계된 모델이 아닙니다.
OpenAI가 공식적으로 nano 추천 용도로 제시한 것은 분류(classification), 데이터 추출, 랭킹, 단순 서브에이전트입니다. 컴퓨터 자동화나 복잡한 멀티모달 처리는 명시된 사용 범위 밖입니다.
서브에이전트 구조에서 nano의 진가
Codex에서 GPT-5.4가 상위 플래너 역할을 하고, GPT-5.4 mini나 nano가 병렬 서브에이전트를 맡는 구조가 OpenAI의 권장 패턴입니다. Codex 내에서 GPT-5.4 mini는 플래그십 할당량의 30%만 소모합니다. 단순한 파일 검색, 코드베이스 탐색, 보조 문서 처리 같은 “빠르게 많이” 처리해야 하는 작업에 nano가 적합합니다. (출처: OpenAI Codex 문서, 2026.03)
결국 이 사람에게 맞고, 저 사람에겐 안 맞습니다
👍 GPT-5.4 mini가 제값 하는 상황
- ChatGPT Free·Go 플랜에서 Thinking 기능을 처음 써보는 경우 — 추가 비용 없이 플래그십 수준의 추론을 경험할 수 있습니다.
- 에이전틱 자동화 개발자 — 컴퓨터 사용 성능(72.1%)이 GPT-5 mini(42.0%)보다 30%p 높아, 스크린샷 해석·UI 자동화 작업에서 질적 도약이 느껴집니다.
- Codex 기반 코딩 워크플로우 — mini 서브에이전트로 GPT-5.4 할당량을 아끼면서 SWE-Bench Pro 54.4% 수준의 코딩 성능을 유지할 수 있습니다.
- Enterprise 팀의 비용 최적화 — Auto 라우팅 기본값을 mini로 설정해 대량 API 호출 비용을 제어하는 구조에 활용 가능합니다.
👎 GPT-5.4 mini가 맞지 않는 상황
- 128K 토큰을 넘기는 장문 문서·대용량 코드베이스 분석 — 이 구간부터 성능 낙폭이 커집니다. Claude Opus 4.6(1M 컨텍스트)이 더 적합한 선택입니다.
- GPT-5 mini로 대규모 API 호출 중인 사람 — 성능은 올랐지만 입력 3배·출력 2.25배 가격 인상이 적용됩니다. 업그레이드 전에 비용 시뮬레이션이 필수입니다.
- 터미널 에이전트 장시간 실행 — Terminal-Bench 2.0에서 60.0% vs 75.1%로 플래그십과 15%p 차이가 납니다.
개인적인 생각을 더하면, “mini = 저성능”이라는 과거의 공식은 이번 세대부터 더 이상 맞지 않습니다. 대부분의 일상적인 작업에서 플래그십과 실질적인 차이를 느끼기 어렵지만, 장문 컨텍스트와 가격 인상이라는 두 가지 조건에서 지뢰가 숨어 있습니다. 이 두 가지를 미리 알고 쓰면 괜찮은 모델이고, 모르고 쓰면 예상치 못한 곳에서 막히게 됩니다.
자주 묻는 질문
마치며
ChatGPT Free·Go 사용자에게는 진짜 이득입니다. 추가 비용 없이 Thinking 기능을 쓸 수 있고, 컴퓨터 사용 성능이 전작 mini보다 30%p 높습니다. 그런데 기존에 GPT-5 mini API를 대량 호출하던 개발자나, 긴 문서를 다루는 분들에게는 업그레이드 전에 반드시 수치를 확인해야 합니다.
“mini가 나왔으니 다 좋아졌겠지”가 아니라, 내가 쓰는 맥락에서 어떤 구간에 걸리는지를 먼저 보는 게 맞습니다.
📎 본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano
https://openai.com/index/introducing-gpt-5-4-mini-and-nano/ - OpenAI API 공식 가격표 (2026.03 기준)
https://openai.com/api/pricing/ - OpenAI ChatGPT 모델 릴리스 노트 (한국어)
https://help.openai.com/ko-kr/articles/9624314-model-release-notes - The Decoder — GPT-5.4 mini and nano 가격 분석 (2026.03)
https://the-decoder.com/openai-ships-gpt-5-4-mini-and-nano-faster-and-more-capable-but-up-to-4x-pricier/ - DataCamp — GPT-5.4 mini and nano 벤치마크 분석 (2026.03)
https://www.datacamp.com/blog/gpt-5-4-mini-nano
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격 및 스펙은 2026년 3월 23일 기준이며, OpenAI 공식 사이트에서 최신 정보를 반드시 확인하세요. GPT-5.4 mini 관련 수치는 OpenAI 공식 발표 및 공식 API 가격 페이지 기준입니다.











댓글 남기기