GPT-5.4 mini, 빠르다고요?
이 조건 먼저 보세요
결론부터 말씀드리면, mini는 거의 모든 벤치마크에서 플래그십 GPT-5.4를 3~5%p 차이로 추격합니다. 그런데 긴 문맥 테스트에서는 얘기가 완전히 달라집니다. nano는 더합니다. 공식 수치로 직접 확인했습니다.
GPT-5.4 mini는 정확히 무엇인가
OpenAI가 2026년 3월 17일 공개한 GPT-5.4 mini와 nano는, 단순한 경량 버전이 아닙니다. 기존 GPT-5 mini를 대체하는 새 세대 소형 모델로, 코딩·툴 사용·멀티모달 추론·에이전트 서브태스크 처리에 특화해 설계됐습니다. (출처: OpenAI 공식 릴리스, 2026.03.17)
GPT-5.4 mini는 API, Codex, ChatGPT 세 곳에서 사용할 수 있습니다. 반면 GPT-5.4 nano는 API 전용으로만 제공됩니다. ChatGPT 앱에서 nano를 직접 선택할 수 없다는 점은 많은 사람이 놓치는 부분입니다.
공식 발표문에는 이런 문장이 있습니다. “최고의 모델은 항상 가장 큰 모델이 아니라, 빠르게 반응하고 툴을 안정적으로 쓰며 복잡한 전문 작업도 잘 수행하는 모델이다.” 맞는 말이지만, ‘어느 조건에서’라는 단서가 빠져 있습니다.
공식 벤치마크 수치 해부
OpenAI가 공개한 수치를 직접 정리하면 이렇습니다. 코딩 벤치마크 SWE-Bench Pro에서 GPT-5.4 mini는 54.4%, GPT-5.4 nano는 52.4%, 구형 GPT-5 mini는 45.7%입니다. 플래그십 GPT-5.4는 57.7%고요. mini와 플래그십의 차이가 3.3%p밖에 안 됩니다. (출처: OpenAI 공식 벤치마크, 2026.03.17)
| 벤치마크 | GPT-5.4 | 5.4 mini | 5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| GPQA Diamond (추론) | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified (컴퓨터 사용) | 75.0% | 72.1% | 39.0% | 42.0% |
출처: OpenAI 공식 블로그 (openai.com/index/introducing-gpt-5-4-mini-and-nano, 2026.03.17)
코딩과 추론에서는 mini가 플래그십을 3~5%p 간격으로 따라붙는 수준입니다. 하지만 Terminal-Bench 2.0에서는 15%p가 벌어지고, nano는 컴퓨터 사용 영역에서 플래그십 대비 36%p 폭락합니다. 같은 5.4 패밀리인데 nano를 컴퓨터 사용 에이전트로 쓰면 결과가 크게 달라집니다.
💡 OpenAI가 발표한 그래프의 Y축은 35%에서 시작합니다. 0부터 시작하면 모델 간 격차가 훨씬 좁아 보입니다. 수치만 보면 인상적이지만, 시각화가 차이를 과장하고 있다는 점은 짚어둬야 합니다. (출처: DataCamp 분석, 2026.03.17)
긴 문맥에서 무너지는 이유가 있습니다
GPT-5.4 mini의 컨텍스트 윈도우는 400K 토큰입니다. 숫자만 보면 충분해 보이지만, 공식 장문 맥락 테스트 결과는 다릅니다. OpenAI MRCR v2 8-needle 64K~128K 구간에서 GPT-5.4가 86.0%를 기록할 때, mini는 47.7%에 그쳤습니다. 플래그십의 절반 수준입니다. (출처: OpenAI 공식 벤치마크, 2026.03.17)
| 장문 맥락 테스트 | GPT-5.4 | 5.4 mini | 5.4 nano |
|---|---|---|---|
| MRCR v2 8-needle 64K~128K | 86.0% | 47.7% | 44.2% |
| MRCR v2 8-needle 128K~256K | 79.3% | 33.6% | 33.1% |
| Graphwalks BFS 0K~128K | 93.1% | 76.3% | 73.4% |
출처: OpenAI 공식 벤치마크 테이블 (openai.com, 2026.03.17)
128K~256K 구간에서는 mini가 33.6%까지 내려앉습니다. 플래그십(79.3%) 대비 절반에도 못 미칩니다. 대용량 코드베이스 전체를 컨텍스트에 넣고 리뷰하거나, 수십 페이지짜리 계약서를 분석하는 작업에 mini를 선택하면 실제 출력 품질이 기대와 달라질 수 있습니다.
💡 공식 발표문과 벤치마크 표를 같이 놓고 보니 이런 차이가 보였습니다. mini가 코딩·추론에서 플래그십을 따라잡는 것처럼 보이지만, 128K 이상 장문 맥락만큼은 그 차이가 2배 이상 벌어집니다. 빠른 속도를 취하는 대신 장문 처리 능력을 상당 부분 포기한 구조입니다.
nano가 더 싸다는 말, 함정이 있습니다
GPT-5.4 nano의 API 가격은 입력 $0.20/1M 토큰, 출력 $1.25/1M 토큰입니다. mini($0.75/$4.50)보다 확실히 저렴합니다. 그런데 Hacker News에서 실제로 속도를 측정한 개발자의 수치가 흥미롭습니다. 출시 당일 API 기준으로 GPT-5.4 mini는 초당 약 180~190 토큰, nano는 약 200 토큰을 처리했습니다. 속도 차이는 크지 않습니다. (출처: Hacker News 실측, 2026.03.17)
문제는 nano가 컴퓨터 사용(CUA) 벤치마크에서 39%를 기록한다는 점입니다. 구형 GPT-5 mini(42%)보다도 낮습니다. 비용을 아끼려고 nano를 선택했다가 화면 스크린샷 해석이나 UI 자동화 작업에서 실패율이 올라가면, 오히려 재시도 비용이 늘어납니다. 저렴한 가격이 항상 저렴한 총비용을 의미하지는 않습니다.
| 모델 | 입력 ($/1M) | 출력 ($/1M) | 컨텍스트 | CUA 점수 |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 200K | 75.0% |
| GPT-5.4 mini | $0.75 | $4.50 | 400K | 72.1% |
| GPT-5.4 nano | $0.20 | $1.25 | 400K | 39.0% |
| Claude Haiku 4.5 | $1.00 | $5.00 | — | 50.7%* |
출처: OpenAI 공식 API 가격 페이지 (openai.com/api/pricing, 2026.03.17), DataCamp 비교 분석 (2026.03.17) / *OSWorld 표준, GPT-5.4 nano는 OSWorld-Verified(더 어려운 테스트) 기준
또 한 가지. GPT-5.4 mini는 GPT-5 mini 대비 약 3배 비쌉니다. (GPT-5 mini 기준 약 $0.25/1M 입력 대비) 성능 향상이 비용 인상을 정당화하는지는 작업 유형에 따라 다릅니다. (출처: Hacker News 사용자 비교, 2026.03.17)
ChatGPT에서 접근 방식이 요금제마다 다릅니다
GPT-5.4 mini를 ChatGPT에서 쓰는 방법이 요금제별로 다르다는 점은 공식 발표문에 적혀 있지만, 많은 사람이 그냥 지나칩니다. Free·Go 요금제 사용자는 + 메뉴의 ‘Thinking’ 옵션을 통해 GPT-5.4 mini를 기본 추론 모델로 이용할 수 있습니다. (출처: OpenAI 공식 릴리스, 2026.03.17)
반면 Plus·Pro·Team·Enterprise 사용자는 GPT-5.4 mini가 GPT-5.4 Thinking의 사용량 한도를 소진했을 때 자동으로 전환되는 폴백(fallback) 모델로만 작동합니다. 즉, 직접 선택해서 쓰는 모델이 아니라, 한도 초과 시 자동 대체 모델입니다. 실제로 결제를 하고 있는데도 생각보다 낮은 성능의 응답을 받는 이유가 여기에 있을 수 있습니다.
GPT-5.4 nano는 ChatGPT 어디에도 노출되지 않습니다. API 전용입니다. ChatGPT 앱에서 nano를 선택하는 방법은 현재 없고, OpenAI가 별도 이유를 밝히지 않았습니다.
같은 가격대 경쟁 모델과 직접 비교하면
Hacker News에 올라온 실측 속도 데이터와 공식 가격을 교차해보면, 경쟁 구도가 좀 더 선명해집니다. 출시 당일 GPT-5.4 mini는 초당 180~190 토큰, nano는 200 토큰 수준이었습니다. Gemini 3 Flash는 같은 시점에 Gemini API에서 초당 약 130 토큰, Vertex에서 약 120 토큰이었습니다. 원시 속도(raw tokens/s) 기준으로는 GPT-5.4 mini가 Gemini 3 Flash보다 40% 이상 빠릅니다. (출처: Hacker News 개발자 실측, 2026.03.17)
💡 실측 속도와 가격표를 같이 놓고 보면, GPT-5.4 nano($0.20/1M)는 Claude Haiku 4.5($1.00/1M)보다 5배 저렴하면서 GPQA Diamond에서 9.8%p 앞섭니다. 단순한 분류·추출·랭킹 작업에서 비용 효율이 가장 높은 선택지가 될 수 있습니다. 다만 컴퓨터 사용 에이전트에는 쓰지 말 것.
Claude Haiku 4.5와의 코딩 비교는 벤치마크 버전이 달라 직접 비교가 어렵습니다. Haiku 4.5는 SWE-bench Verified에서 73.3%를 기록했고, GPT-5.4 nano는 더 어려운 SWE-bench Pro(Public)에서 52.4%를 받았습니다. 어느 쪽이 더 잘하는지는 공식적으로 아직 같은 조건에서 검증된 바 없습니다. (출처: DataCamp 분석, 2026.03.17)
Codex에서는 GPT-5.4 mini가 플래그십 GPT-5.4 할당량의 30%만 소모합니다. 플래그십을 3번 쓸 비용으로 mini를 10번 쓸 수 있다는 뜻입니다. 단순 파일 검색·PR 초안·코드 리뷰처럼 반복 호출이 많은 서브태스크는 mini로 돌리고, 최종 판단만 플래그십에 맡기는 구조가 실질적으로 유리합니다. (출처: OpenAI 공식 릴리스, 2026.03.17)
어떤 작업에 써야 하고 어디서 멈춰야 하나
정리하면 이렇습니다. GPT-5.4 mini는 코딩 서브에이전트, 스크린샷 기반 UI 자동화, 멀티모달 빠른 질의에 적합합니다. 128K 토큰 이하의 컨텍스트에서 플래그십에 근접한 성능을 내면서 속도는 2배 이상 빠릅니다. Hebbia CTO의 평가도 비슷합니다. “GPT-5.4 mini가 여러 출력 작업과 인용 재현에서 경쟁 모델과 대등하거나 앞섰고, 플래그십 GPT-5.4보다 높은 엔드-투-엔드 통과율을 보인 사례도 있었다.” (출처: ZDNET, 2026.03.17, Hebbia CTO 인터뷰)
반면 멈춰야 할 지점도 분명합니다. 대용량 문서 전체 분석, 코드베이스 전체 참조 리뷰처럼 128K 이상 토큰을 다루는 작업에서 mini를 선택하면 출력 품질이 눈에 띄게 떨어집니다. nano는 컴퓨터 사용 에이전트에서 아예 쓰지 않는 게 낫습니다. 39%라는 수치는 이 영역에서 nano가 설계 목적 밖이라는 뜻입니다.
✅ mini가 유리한 경우
코딩 서브에이전트 / 스크린샷 UI 자동화 / 멀티모달 빠른 질의 / 128K 이하 컨텍스트 반복 호출
⛔ mini를 피해야 하는 경우
대용량 코드베이스 전체 분석 / 128K 이상 장문 계약서·보고서 처리 / 정밀한 장거리 문맥 추적
⛔ nano를 피해야 하는 경우
컴퓨터 사용(CUA) / UI 스크린샷 해석 / 복잡한 멀티스텝 에이전트 작업
자주 나오는 질문 5가지
마치며 — 총평
GPT-5.4 mini는 분명 잘 만든 소형 모델입니다. 코딩과 추론에서 플래그십을 3~5%p 차이로 따라가면서 2배 이상 빠른 건 인상적입니다. 그런데 128K 이상 장문 맥락에서 성능이 절반으로 떨어진다는 공식 수치는 릴리스 노트 어딘가에 조용히 묻혀 있습니다.
nano는 저렴함이 강점이지만, 컴퓨터 사용 에이전트로는 쓰면 안 됩니다. 39%라는 수치가 그걸 말해줍니다. 두 모델 모두 ‘모든 작업을 커버하는 저렴한 대안’이 아니라, 특정 작업에 집중할 때 가장 빛나는 선택지입니다. 작업 유형을 먼저 파악하고 모델을 고르는 순서가 맞습니다. 반대로 하면 벤치마크와 실제 경험 사이의 간극이 생깁니다.
📚 본 포스팅 참고 자료
본 포스팅 작성 이후 OpenAI 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 최신 정보는 반드시 공식 사이트에서 확인하세요. IT/AI 서비스 특성상 모델 스펙·가격은 업데이트 없이 바뀔 수 있습니다.











댓글 남기기