OpenAI 공식 발표 기반
GPT-5.4 mini, 코딩은 94%인데
이 조건에서 무너집니다
2026년 3월 18일 출시된 GPT-5.4 mini — 코딩 성능 수치만 보면 본 모델 대비 94%인데, 공식 발표문에 같이 실린 숫자 하나가 사용 범위를 완전히 바꿔놓습니다.
GPT-5.4 mini는 어떤 모델인가
GPT-5.4 mini는 OpenAI가 2026년 3월 18일 공개한 경량 추론 모델입니다. 같은 날 GPT-5.4 nano도 함께 나왔는데, 두 모델 모두 GPT-5.4 본 모델의 핵심 역량을 빠르고 저렴하게 가져오는 것이 목표입니다. OpenAI 공식 발표 문구를 그대로 옮기면, “GPT-5.4의 강점 상당 부분을 빠르고 효율적인 모델에 담아냈다(bring many of the strengths of GPT-5.4 to faster, more efficient models)”고 적혀 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)
이 모델이 등장한 배경을 이해하려면 GPT-5.4 본 모델의 포지셔닝부터 짚어야 합니다. 2026년 3월 5일 출시된 GPT-5.4는 추론 깊이에 따라 Instant(5.3), Thinking(5.4), Pro(5.4) 세 티어로 나뉩니다. 그런데 이 중 무료 사용자가 실질적으로 쓸 수 있는 추론 기능은 없었습니다. GPT-5.4 mini의 출시로 무료(Free)·Go 플랜 사용자도 ChatGPT + 메뉴의 ‘잘 생각하기’를 통해 Thinking 기능을 처음으로 쓸 수 있게 됐습니다.
API 기준 기본 스펙은 컨텍스트 윈도우 400,000 토큰, 최대 출력 128,000 토큰, 입력 토큰 $0.75/1M, 출력 토큰 $4.50/1M입니다. (출처: OpenAI 공식 발표, 2026.03.17) nano의 경우 입력 $0.20/1M, 출력 $1.25/1M으로 더 저렴하지만 API 전용이며 ChatGPT에서는 사용할 수 없습니다.
💡 GPT-5 mini(이전 세대)와 나란히 놓고 보면 이렇습니다. mini 라인만 비교해도 코딩(SWE-bench Pro) 45.7% → 54.4%로 상승했고, 컴퓨터 사용(OSWorld-Verified)은 42.0% → 72.1%로 급등했습니다. 숫자만 보면 준수한 업그레이드인데, 공식 발표문에 함께 실린 장문 처리 수치는 전혀 다른 이야기를 합니다.
코딩 성능 94% — 이게 어느 수준인가
OpenAI 공식 발표에 실린 벤치마크 표를 직접 계산해봤습니다. GPT-5.4 mini의 SWE-bench Pro(공개) 점수는 54.4%, GPT-5.4 본 모델은 57.7%입니다. 차이를 계산하면 이렇습니다.
📊 SWE-bench Pro 성능 비율 계산
54.4 ÷ 57.7 × 100 ≈ 94.3%
출처: OpenAI 공식 발표 ‘Introducing GPT-5.4 mini and nano’ (2026.03.17)
즉, 코딩 실력만 따지면 GPT-5.4 mini는 본 모델의 94%를 냅니다. 그리고 가격은 본 모델($2.50/1M 입력)의 30%입니다. 순수 코딩 작업에서 비용 대비 효율은 mini가 훨씬 앞선다는 계산이 나옵니다.
Terminal-Bench 2.0에서도 60.0%를 기록했는데, 이는 GPT-5 mini(38.2%)보다 21.8%p 높은 수치입니다. 에이전트가 터미널에서 코드를 실행하고, 오류를 잡고, 결과를 검증하는 복합 흐름에서 이전 mini보다 분명히 강해졌습니다. 에이전트형 코딩 도구를 만드는 개발자라면 이 수치가 실질적으로 체감될 부분입니다.
💡 공식 발표문과 벤치마크 표를 교차해 읽어보면 이런 패턴이 보입니다. OpenAI는 mini를 “코딩 워크플로우에 특히 효과적(especially effective in coding workflows)”이라고 명시했고, 실제로 코딩 지표에서 본 모델과의 격차는 생각보다 작습니다. 그런데 같은 표 안에 있는 장문 처리 지표는 이야기가 완전히 달라집니다.
Codex 쿼터를 3.3배 늘리는 계산법
GPT-5.4 mini를 쓸 만한 이유 중 기존 블로그에서 잘 안 다루는 포인트가 하나 있습니다. Codex에서 GPT-5.4 mini는 GPT-5.4의 쿼터를 30%만 소모합니다. 공식 발표문에 딱 이렇게 나옵니다.
“GPT-5.4 mini uses only 30% of the GPT-5.4 quota, letting developers quickly handle simpler coding tasks in Codex for about one-third the cost.”
(출처: OpenAI 공식 블로그, 2026.03.17)
30%만 쓴다는 게 실제로 어떤 의미인지 직접 계산해보면 이렇습니다.
📊 Codex 쿼터 효율 계산
GPT-5.4로 100회 작업 가능한 쿼터 → mini 사용 시: 100 ÷ 0.3 = 약 333회
즉, 동일 쿼터로 3.3배 더 많은 작업을 처리할 수 있습니다.
출처: OpenAI 공식 블로그, 2026.03.17 / 계산 기준: Codex 쿼터 소모 비율 30%
OpenAI가 권장하는 실전 활용 패턴도 공식 발표문에 나와 있습니다. GPT-5.4가 계획·조율·최종 판단을 맡고, GPT-5.4 mini 서브에이전트가 코드베이스 검색, 대형 파일 검토, 지원 문서 처리 같은 병렬 작업을 처리하는 구조입니다. 계획은 플래그십이, 실행은 mini가 나눠 맡으면 쿼터를 아끼면서 품질도 유지됩니다.
장문 컨텍스트에서 왜 무너지는가
이 부분이 GPT-5.4 mini를 쓸 때 가장 주의해야 할 지점입니다. 공식 발표문의 벤치마크 표 하단에 Long Context 항목이 따로 있는데, 거기서 수치가 급격히 달라집니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| OSWorld-Verified (컴퓨터 사용) | 75.0% | 72.1% | 42.0% |
| SWE-bench Pro (코딩) | 57.7% | 54.4% | 45.7% |
| MRCR v2 8-needle 64K~128K | 86.0% | 47.7% | 35.1% |
| MRCR v2 8-needle 128K~256K | 79.3% | 33.6% | 19.4% |
출처: OpenAI 공식 발표 ‘Introducing GPT-5.4 mini and nano’ (2026.03.17)
이 표가 말해주는 것을 한 문장으로 정리하면 이렇습니다. 코딩과 컴퓨터 사용에서는 본 모델과 거의 차이가 없지만, 128K~256K 범위의 장문 처리에서는 79.3% vs 33.6%로 본 모델의 42% 수준밖에 안 됩니다.
⚠️ 실제로 어떤 작업에서 문제가 생기나?
- 대형 코드베이스 전체를 컨텍스트에 넣고 버그 위치를 찾아달라고 할 때
- 100페이지 이상 PDF 계약서나 기술 문서를 분석할 때
- 긴 대화 히스토리를 유지하며 앞부분 내용을 참조해야 하는 에이전트
- 법률·금융 문서에서 특정 조항을 정확히 찾아야 하는 경우
MRCR(Multi-Range Context Retrieval)은 긴 문서 안에 숨겨진 정보 8개를 정확히 찾아내는 벤치마크입니다. 문서가 길어질수록 mini의 정확도가 급격히 떨어지는 이유는 경량화 과정에서 어텐션 메커니즘의 긴 범위 처리 용량이 줄어들었기 때문으로 보이나, OpenAI가 공식 이유를 밝히지 않은 부분입니다.
가격 3배 인상, 그래서 쓸 만한가
GPT-5.4 mini의 입력 토큰 단가는 $0.75/1M입니다. 이전 세대인 GPT-5 mini의 입력 단가는 $0.25/1M이었습니다. 정확히 3배 인상입니다. 출력은 기존 $2.00/1M에서 $4.50/1M으로 2.25배 올랐습니다. (출처: 나무위키 GPT-5 문서, 나무.위키/w/GPT-5, 2026.03.26 기준)
가격 인상 폭만 보면 거부감이 생기는 게 당연합니다. 그런데 GPT-5.4 mini와 GPT-5 mini를 코딩 벤치마크 기준으로 비교하면, 이 인상이 실질적으로 얼마나 합리적인지 계산할 수 있습니다.
📊 비용 대비 코딩 성능 비율
GPT-5 mini: SWE-bench 45.7% / 비용 $0.25 입력 → 성능/비용 = 182.8
GPT-5.4 mini: SWE-bench 54.4% / 비용 $0.75 입력 → 성능/비용 = 72.5
비용 대비 효율은 GPT-5 mini가 2.5배 높음. 단, 작업 당 정확도와 재시도 비용 포함 시 달라질 수 있음.
단순 토큰 단가 효율은 GPT-5 mini가 더 낫습니다. 그러나 막상 에이전트나 복잡한 코딩 작업에서는 GPT-5 mini가 첫 번째 시도에서 실패해 여러 번 재시도하는 상황이 생깁니다. SWE-bench 기준 8.7%p 차이는 복잡한 작업일수록 실패율 차이가 크게 벌어진다는 의미입니다. 단순 분류·요약 작업이면 GPT-5 mini가 여전히 합리적이고, 에이전트형 코딩 워크플로우에서는 mini 업그레이드가 의미 있습니다.
GPT-5.4 mini를 써도 되는 조건과 피해야 할 조건
지금까지 확인한 공식 수치를 바탕으로 실제 사용 선택 기준을 정리하면 이렇습니다.
✅ 이 작업에는 mini가 맞습니다
- 코드 수정·버그 픽스 (SWE-bench 54.4%)
- 컴퓨터 사용 작업 — 스크린샷 해석·클릭·브라우징 (OSWorld 72.1%)
- Codex 서브에이전트로 병렬 처리할 때
- 도구 호출(Function Calling) 중심 에이전트
- ChatGPT Free·Go 사용자의 Thinking 기능 이용
❌ 이 작업에는 GPT-5.4 본 모델이 필요합니다
- 128K~256K 범위의 장문 문서 정밀 검색 (33.6% 수준)
- 대규모 법률·계약 문서 전체 분석
- 긴 코드베이스 전체를 단일 컨텍스트로 처리해야 할 때
- 멀티 소스 심층 리서치 (BrowseComp 수준)
💡 컨텍스트 길이 400,000 토큰을 지원한다고 해서 장문 처리 정확도가 보장되는 건 아닙니다. 최대 컨텍스트 윈도우 크기와 그 범위에서 실제로 얼마나 정확하게 정보를 찾는지는 별개의 문제입니다. 공식 발표문이 두 수치를 모두 공개한 점이 의미 있는 이유가 여기 있습니다.
Q&A
마치며 — GPT-5.4 mini를 어떻게 볼 것인가
GPT-5.4 mini는 코딩·컴퓨터 사용 중심 작업에서 본 모델 성능의 90% 이상을 내면서, Codex 쿼터는 30%만 씁니다. 단순 코딩 보조 도구나 에이전트 서브에이전트 역할로는 이 시점에 나온 mini 모델 중 가장 실용적입니다.
반면 장문 문서를 정밀하게 읽어야 하는 작업에서는 본 모델과의 성능 차이가 크게 벌어집니다. 128K~256K 범위에서의 정확도 33.6%는, 400K 컨텍스트를 지원한다는 스펙과는 별개의 이야기입니다. 컨텍스트 윈도우 크기와 그 안에서의 실제 정확도를 구분해서 봐야 한다는 점을 이번 공식 발표가 직접 보여줬습니다.
가격 3배 인상은 단순 토큰 효율로만 보면 아쉽지만, 에이전트 코딩 플로우에서 GPT-5 mini로 여러 번 재시도해야 하는 상황이라면 실질 비용은 생각보다 좁혀질 수 있습니다. 어떤 작업을 주로 하느냐에 따라 판단이 달라지는 모델입니다.
본 포스팅 참고 자료
- OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano (2026.03.17)
- OpenAI 공식 블로그 — Introducing GPT-5.4 (2026.03.05)
- OpenAI API 공식 문서 — GPT-5.4 mini Model
- OpenAI API 가격 공식 페이지 — openai.com/api/pricing/
- 나무위키 GPT-5 문서 — namu.wiki/w/GPT-5 (2026.03.26 기준)
본 포스팅은 2026년 3월 29일 기준 공개된 OpenAI 공식 발표 자료를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다.
API 요금 및 모델 스펙은 반드시 공식 가격 페이지에서 최신 정보를 확인하세요.











댓글 남기기