OpenAI 공식 발표 기반
GPT-5.4 mini, 빠르다는 게 이 조건에서만 맞습니다
결론부터 말씀드리면, GPT-5.4 mini는 짧고 집중된 작업에서는 이전 mini 모델을 압도합니다. 그런데 64K 토큰을 넘어가는 순간부터 성능이 절반 이하로 꺾입니다. OpenAI 공식 벤치마크 수치가 이걸 그대로 보여주고 있습니다. 이 글에서는 그 수치를 직접 확인하고, 출시 당일 조용히 일어난 가격 인상 사건까지 같이 짚었습니다.
GPT-5.4 mini가 나온 맥락부터
OpenAI는 2026년 3월 5일 GPT-5.4 Thinking을 공개한 지 12일 만인 3월 17일, 경량 모델인 GPT-5.4 mini와 GPT-5.4 nano를 동시에 출시했습니다. (출처: OpenAI 공식 블로그, 2026.03.17) 두 모델 모두 API, Codex, ChatGPT에서 사용 가능하지만, nano는 ChatGPT에서는 직접 선택할 수 없고 API 전용으로 제공됩니다.
OpenAI가 명시한 타깃은 “레이턴시가 제품 경험을 직접 결정하는 워크로드”입니다. 코딩 어시스턴트, 서브에이전트, 스크린샷 해석, 실시간 멀티모달 앱이 그 예시로 명시됩니다. GPT-5.4 mini가 전 세대 GPT-5 mini보다 2배 이상 빠르게 동작한다는 건 공식 발표 내용 그대로입니다.
다만 이 “2배 빠름”이 어느 조건에서 측정된 수치인지가 핵심입니다. 공식 문서에는 “latency estimate는 오프라인 시뮬레이션 기반이며, 실제 프로덕션 레이턴시는 상당히 다를 수 있다”고 명시돼 있습니다. 실측 수치를 아래에서 같이 봅니다.
속도가 진짜로 2배인지 확인해봤습니다
출시 직후 Hacker News에서 API를 직접 테스트한 개발자들의 실측치가 공개됐습니다. GPT-5.4 mini는 API에서 초당 180~190 토큰을 처리했고, GPT-5.4 nano는 약 200 토큰/초 수준이었습니다. 비교 기준인 GPT-5 mini는 일반 API에서 55~60 토큰/초, 우선 처리(priority) 옵션을 쓰면 115~120 토큰/초였습니다.
수치로 보면 GPT-5.4 mini는 GPT-5 mini 대비 약 3배 이상 빠른 셈입니다. 공식 발표에서 “2배 이상”이라고 했지만 실측 조건에서는 3배를 웃돌았습니다. 단, 이 수치는 출시 당일 트래픽이 낮은 시점의 측정치라 평상시와 다를 수 있습니다.
Gemini 3 Flash는 같은 시점 기준 약 130 토큰/초 수준이었습니다. GPT-5.4 mini(180+t/s)와 nano(200t/s)는 현재 공개된 주요 경량 모델 중 가장 빠른 출력 속도를 기록했습니다. 단, 속도는 입력 처리(TTFT) 없이 출력 토큰만 측정한 수치라 실제 체감과 차이가 있을 수 있습니다.
SWE-bench Pro 코딩 벤치마크에서는 GPT-5.4 mini가 54.4%, GPT-5.4 nano가 52.4%를 기록했습니다. 전 세대 GPT-5 mini는 45.7%였으니 mini-to-mini 성능 점프폭이 약 9%p에 달합니다. (출처: OpenAI 공식 블로그, 2026.03.17)
64K 넘으면 성능이 어디까지 떨어지나
이게 이 글에서 가장 중요한 부분입니다. GPT-5.4 mini는 짧은 컨텍스트에서 GPT-5.4에 거의 근접한 성능을 보이지만, 장문 컨텍스트 처리에서는 얘기가 완전히 달라집니다.
| 컨텍스트 길이 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| 64K~128K | 86.0% | 47.7% | 35.1% |
| 128K~256K | 79.3% | 33.6% | 19.4% |
| 0K~128K (단거리) | 93.1% | 76.3% | 73.4% |
출처: OpenAI MRCR v2 8-needle 벤치마크 (OpenAI 공식 블로그, 2026.03.17)
128K~256K 구간에서 GPT-5.4 mini의 점수는 33.6%입니다. 같은 구간 GPT-5.4가 79.3%를 기록한 것과 비교하면 절반에도 못 미칩니다. 64K 이하에서는 거의 차이가 없던 두 모델이 그 이상에서 완전히 갈립니다.
⚠️ 실무 주의: 회의록 10~20개, 긴 코드베이스, 여러 문서를 한 번에 넣는 작업에서는 GPT-5.4 mini가 맥락을 놓칠 가능성이 높습니다. 400K 컨텍스트 창을 지원한다고 명시됐지만, 벤치마크 수치상 128K를 넘어서면 성능 유지가 어렵습니다.
반대로 0K~128K 범위에서는 mini와 nano 모두 전 세대 대비 유의미한 개선이 있습니다. 짧은 스크린샷 해석, 단일 파일 리뷰, 소규모 코드 수정처럼 집중된 작업이라면 성능 저하 없이 속도 이득만 챙길 수 있습니다.
출시 당일 가격이 조용히 3배 됐던 이유
GPT-5.4 mini 출시 당일(2026.03.17), Reddit의 Codex 서브레딧에서 이상한 제보가 올라왔습니다. OpenAI의 API 가격 페이지에서 mini의 입력 가격이 100만 토큰당 $0.25로 표시됐다가, 같은 날 $0.75로 조용히 수정됐다는 내용이었습니다.
GPT-5 mini의 입력 가격이 $0.25/M인 것과 비교하면, GPT-5.4 mini는 성능이 향상되면서 가격도 3배 뛰었습니다. 출시 초반 일부 페이지에서 $0.25로 표시된 건 아직 업데이트되지 않은 페이지가 남아 있었기 때문으로 보이며, OpenAI가 공식 답변을 별도로 내놓지 않은 부분입니다.
현재 확정된 가격은 다음과 같습니다. (출처: OpenAI API Pricing, 2026.03.17 기준)
| 모델 | 입력 (100만 토큰) | 출력 (100만 토큰) |
|---|---|---|
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.4 mini | $0.75 | $4.50 |
| GPT-5.4 nano | $0.20 | $1.25 |
| GPT-5 mini (전 세대) | $0.25 | $2.00 |
GPT-5.4 mini의 입력 가격($0.75)은 GPT-5 mini($0.25) 대비 3배입니다. “경량 모델 = 저렴하다”는 인식 그대로 GPT-5 mini를 기준으로 예산을 짰다면, 동일 작업량에서 비용이 3배로 늘어납니다. 물론 같은 성능 대비 가격 효율을 따지면 다르지만, 절대 비용 기준으로는 올랐습니다.
ChatGPT 무료 사용자에게 생긴 변화
ChatGPT에서 GPT-5.4 mini의 위치가 생각보다 중요합니다. Free와 Go 요금제 사용자는 ChatGPT에서 GPT-5.4 mini를 “+메뉴”의 Thinking 기능을 통해 쓸 수 있습니다. 이 말은 반대로, 무료 사용자가 GPT-5.4 수준의 Thinking 모드를 경험하려면 GPT-5.4 mini를 통해서만 가능하다는 뜻이기도 합니다. (출처: OpenAI Model Release Notes, 2026.03.18)
Plus, Pro 이상 유료 사용자에게는 GPT-5.4 mini가 GPT-5.4 Thinking의 rate limit fallback으로 작동합니다. 즉, 유료 사용자가 GPT-5.4 Thinking 한도를 다 쓰면 자동으로 mini로 전환됩니다. 별도 알림이 없기 때문에 모르고 쓰는 경우가 생길 수 있습니다.
GPT-5.4 mini는 모델 선택 목록에서 직접 고를 수 없습니다. 약 30일 후에는 GPT-5 Thinking mini가 선택 항목에서 제거되고 GPT-5.4 mini로 대체된다는 것도 공식 릴리스 노트에 명시돼 있습니다. 모델 피커에서 “사라지는” 항목이 생기는 건데, 미리 알아두면 혼란을 줄일 수 있습니다.
Codex에서 30% 쿼터 소모의 의미
Codex를 쓰는 개발자라면 이 수치가 중요합니다. GPT-5.4 mini는 Codex에서 GPT-5.4 쿼터의 30%만 소모합니다. 단순하게 보면 동일 쿼터로 GPT-5.4 작업의 3배를 처리할 수 있다는 뜻입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Codex의 서브에이전트 기능과 결합하면 활용 방식이 더 다양해집니다. 큰 계획이나 최종 판단은 GPT-5.4가 맡고, 코드베이스 검색·단일 파일 리뷰·문서 처리 같은 반복적이고 집중된 서브태스크는 mini가 병렬로 처리하는 구조를 만들 수 있습니다. OpenAI가 공식 블로그에서 직접 예시로 든 설계 패턴입니다.
API 가격으로만 보면 mini는 GPT-5.4의 30% 수준($0.75 vs $2.50)입니다. Codex 쿼터 소모도 30%입니다. 즉, 두 관점에서 모두 약 1/3 비용입니다. 그런데 장문 컨텍스트가 포함된 작업에서는 성능도 1/3 이하로 떨어지기 때문에, “저렴하게 쓰는 mini” 전략이 먹히는 건 반드시 짧고 집중된 작업에서만입니다.
실용적인 기준을 정리하면 이렇습니다. 단일 파일 수정, 스크린샷 기반 UI 작업, 툴 콜 처리처럼 입력이 짧고 명확한 작업에서는 mini로 충분히 대체됩니다. 반대로 전체 레포지토리를 분석하거나 긴 문서 여러 개를 동시에 처리하는 경우라면 GPT-5.4를 유지하는 게 낫습니다.
경쟁 모델과 비교하면 어디서 갈리나
GPT-5.4 mini를 직접 대응하는 경쟁 모델은 Gemini 3 Flash와 Claude Haiku 4.5입니다. Hacker News에서 실측된 가격 비교를 기반으로 주요 지표를 정리하면 다음과 같습니다.
| 모델 | 입력 가격/M | 출력 가격/M | 실측 속도 | SWE-bench |
|---|---|---|---|---|
| GPT-5.4 mini | $0.75 | $4.50 | 180~190 t/s | 54.4% |
| GPT-5.4 nano | $0.20 | $1.25 | 약 200 t/s | 52.4% |
| Gemini 3 Flash | $0.50 | $3.00 | 약 130 t/s | 미공개 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 미공개 | 미공개 |
출처: OpenAI API Pricing, Hacker News 실측 (2026.03.17), Anthropic API Pricing
비용 대비 속도만 보면 GPT-5.4 nano($0.20)가 가장 경쟁력 있습니다. mini보다 오히려 빠르면서($0.20 vs $0.75) SWE-bench 점수 차이가 2%p(54.4 vs 52.4)에 불과합니다. 단, nano는 ChatGPT에서는 쓸 수 없고 API 전용입니다.
Gemini 3 Flash는 입력 가격($0.50)이 mini보다 저렴하고 긴 컨텍스트 관리 구조가 다르게 설계돼 있어, 장문 문서 처리 중심 작업이라면 Gemini 계열이 더 안정적인 선택일 수 있습니다. 어떤 모델이 절대 우위라는 답은 없고, 작업 특성에 따라 갈립니다.
자주 묻는 질문 5가지
마치며
GPT-5.4 mini는 짧고 집중된 작업에서 확실히 이전 세대를 앞섭니다. 속도는 3배 가까이 빨라졌고, 코딩·툴 콜·컴퓨터 사용 성능은 더 큰 GPT-5.4에 근접했습니다. ChatGPT 무료 사용자 입장에서는 Thinking 기능의 사실상 유일한 접근 창구가 됐습니다.
그런데 64K 이상 컨텍스트에서 성능이 급격히 꺾인다는 점, 출시 당일 가격이 공지 없이 3배 수준으로 정착됐다는 점은 그냥 넘어가기 어렵습니다. “mini니까 가벼운 용도”로 쓸 거라면 그냥 쓰면 됩니다. 그러나 “GPT-5.4 대신 쓰면 비용 절감이 될 것”이라는 기대로 접근하면 생각보다 제약이 많습니다.
솔직히 말하면, nano가 생각보다 선방합니다. mini 대비 2%p 낮은 코딩 성능에 가격은 4분의 1입니다. API를 직접 쓰는 개발자라면 nano를 먼저 테스트해보고 성능이 충분한지 확인하는 게 더 실용적인 접근일 수 있습니다.
본 포스팅 참고 자료
- OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano (openai.com)
- OpenAI 릴리스 노트 — Model Release Notes (help.openai.com)
- OpenAI API 가격 페이지 (openai.com/api/pricing)
- OpenAI 개발자 문서 — GPT-5 mini 모델 페이지 (developers.openai.com)
- Hacker News — GPT-5.4 Mini and Nano 실측 토론 (news.ycombinator.com)
- ZDNET — OpenAI launches GPT-5.4 mini and nano (zdnet.com)
본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 본 글은 2026년 3월 27일 기준 공개된 OpenAI 공식 자료와 커뮤니티 실측 데이터를 바탕으로 작성됐으며, 특정 모델의 사용을 권유하는 것이 아닙니다. API 도입 전 반드시 최신 공식 문서와 가격 정책을 직접 확인하세요.











댓글 남기기