무료로 쓸 수 있다는 말에 시작했는데, API 요금이 출시 당일 3배 올랐습니다. 공식 벤치마크 숫자도 막상 뜯어보면 다른 부분이 있습니다.
API 입력 $0.75/1M
OSWorld 72.1%
컨텍스트 400K
GPT-5.4 mini가 뭐가 달라진 건지
OpenAI가 2026년 3월 17일 공개한 GPT-5.4 mini는 3월 5일 출시된 플래그십 GPT-5.4의 경량 버전입니다. 이전 경량 모델인 GPT-5 mini와 달리, 이번엔 코딩·멀티모달·툴 사용 세 가지를 묶어 한 모델 안에 넣었습니다. OpenAI가 공식 발표에서 “GPT-5 mini 대비 2배 이상 빠른 속도”를 앞세운 이유가 바로 이 구조 변화 때문입니다. (출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.17)
동시에 ChatGPT Free·Go 사용자도 ‘Thinking’ 버튼을 통해 GPT-5.4 mini를 쓸 수 있게 열렸습니다. 무료 공개 범위가 이전 세대보다 훨씬 넓어진 셈인데, 이 부분은 뒤에서 조건을 따로 짚어보겠습니다.
API 요금, 출시 당일 무슨 일이 있었나
💡 공식 발표 페이지와 API 요금 페이지를 나란히 놓고 보니 숫자가 달랐습니다. 발표 자료에는 mini 입력 요금이 “$0.25/1M tokens”로 적혀 있었는데, 실제 공개된 요금은 “$0.75/1M tokens”였습니다.
Reddit의 OpenAI Codex 서브레딧에는 출시 당일 “가격이 막판에 올랐다”는 글이 올라왔습니다. GPT-5.4 mini 입력 요금이 발표 직전까지 $0.25/1M tokens로 예상됐다가, 공식 공개 시점에 $0.75/1M tokens로 변경됐다는 내용입니다. 출력 요금도 약 $2/1M tokens에서 $4.50/1M tokens로 올랐습니다. 3배 인상입니다.
| 모델 | 입력(1M토큰) | 캐시 입력 | 출력(1M토큰) |
|---|---|---|---|
| GPT-5.4 | $2.50 | $0.25 | $15.00 |
| GPT-5.4 mini | $0.75 | $0.075 | $4.50 |
| GPT-5.4 nano | $0.20 | $0.02 | $1.25 |
| GPT-5 mini (비교) | $0.25 | — | $2.00 |
| Gemini 3.1 Flash-Lite (비교) | $0.25 | — | $1.50 |
(출처: OpenAI API Pricing 공식 페이지 openai.com/api/pricing/, 2026.03.31 기준)
표를 보면 GPT-5.4 mini 입력 요금은 GPT-5 mini($0.25)보다 3배 비쌉니다. “경량 모델이니까 전작보다 저렴하겠지”라는 예상이 빗나갑니다. GPT-5 mini 기준으로 예산을 잡고 마이그레이션을 준비했다면 비용 계산을 다시 해야 합니다.
왜 올랐는지는 OpenAI가 공식 답변을 내놓지 않은 부분입니다. 업계에서는 GPT-5.4 mini가 단순 챗봇용이 아닌 에이전트 서브에이전트 엔진으로 설계됐기 때문에, 고빈도 API 호출 시나리오를 감안해 단가를 맞췄다는 해석이 나오고 있습니다.
벤치마크 숫자가 말하지 않는 것
SWE-Bench Pro에서 GPT-5.4 mini는 54.4%, GPT-5.4 본체는 57.7%입니다. 차이가 3.3%포인트밖에 안 나니 “거의 같은 성능”으로 읽기 쉽습니다. 실제로 많은 포스팅이 이 숫자를 그대로 소개합니다. 그런데 롱컨텍스트 성능 벤치마크를 같이 보면 그림이 달라집니다.
💡 OpenAI 공식 벤치마크 테이블에서 GPT-5.4와 GPT-5.4 mini를 롱컨텍스트 항목으로 교차해보니, 짧은 컨텍스트에서는 거의 붙어 있던 두 모델이 길이가 늘어날수록 빠르게 벌어졌습니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| SWE-Bench Pro | 57.7% | 54.4% | 45.7% |
| OSWorld-Verified | 75.0% | 72.1% | 42.0% |
| MRCR 8-needle 64K~128K | 86.0% | 47.7% | 35.1% |
| MRCR 8-needle 128K~256K | 79.3% | 33.6% | 19.4% |
| Graphwalks BFS 0K~128K | 93.1% | 76.3% | 73.4% |
(출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.17)
핵심은 MRCR 벤치마크입니다. MRCR은 긴 문서에서 특정 정보를 찾아내는 능력을 테스트하는 롱컨텍스트 벤치마크입니다. 64K~128K 구간에서 GPT-5.4는 86.0%인데 GPT-5.4 mini는 47.7%입니다. 거의 절반 수준입니다. 128K~256K 구간에서는 GPT-5.4가 79.3%를 유지하는 동안 GPT-5.4 mini는 33.6%로 더 떨어집니다.
즉, 전체 코드베이스를 한 번에 넣어두고 작업하는 시나리오라면 GPT-5.4 mini는 컨텍스트가 길어질수록 중요한 정보를 놓칠 가능성이 높습니다. 짧은 단위 작업을 병렬로 처리하는 서브에이전트 역할에는 맞지만, 대형 파일 전체를 한 번에 이해하는 용도로는 본체 GPT-5.4가 필요합니다.
Codex 서브에이전트 패턴이 바뀌는 이유
💡 Codex에서 GPT-5.4 mini는 GPT-5.4 할당량의 30%만 소비합니다. 비용이 약 1/3입니다. 단순 파일 탐색이나 문서 파싱처럼 추론 깊이가 필요 없는 작업을 mini에게 맡기면, 같은 예산으로 더 많은 작업을 처리할 수 있습니다. (출처: OpenAI Codex 서브에이전트 문서, developers.openai.com/codex/subagents)
실제 활용 패턴은 이렇습니다. GPT-5.4가 “이 기능을 구현해줘”라는 상위 목표를 받으면, 코드베이스 검색·테스트 파일 리뷰·의존성 확인 같은 하위 작업들을 GPT-5.4 mini 인스턴스 여러 개에 병렬로 넘깁니다. 각 mini는 짧은 컨텍스트 안에서 작업하기 때문에 앞서 확인한 롱컨텍스트 성능 저하 문제가 발동하지 않습니다.
반대로 개별 mini에게 “전체 레포지토리를 요약해줘”처럼 긴 컨텍스트를 요구하는 작업을 주면, 128K를 넘는 순간 성능이 급락하는 구간에 들어갑니다. 서브에이전트로는 잘 맞지만 단독 에이전트로는 용도를 가려야 한다는 뜻입니다.
무료 사용자가 실제로 받는 것
“무료로 GPT-5.4 mini를 쓸 수 있다”는 말은 맞습니다. 그런데 정확히는 ChatGPT Free 및 Go 사용자가 ‘Thinking’ 버튼을 통해 GPT-5.4 mini에 접근하는 방식입니다. Thinking 기능을 켜지 않으면 Free 사용자는 GPT-5.4 mini를 사용하지 않습니다. (출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.17)
또한 유료 구독자(Plus 기준)는 GPT-5.4 Thinking 사용량이 3시간당 80개 한도에 도달하면 자동으로 GPT-5.4 mini로 폴백됩니다. 유료 사용자 입장에서는 처음에 GPT-5.4를 쓰다가 어느 순간 mini로 바뀌는 구조입니다. 요청이 많은 시간대에 체감 품질이 낮아진다면 이 폴백이 작동했을 가능성이 있습니다.
GPT-5 mini와 비교해서 얼마나 달라졌나
성능 향상 폭만 보면 GPT-5.4 mini는 전작 대비 확실히 올랐습니다. SWE-Bench Pro 기준 GPT-5 mini(45.7%) → GPT-5.4 mini(54.4%)로 8.7%포인트 올랐고, OSWorld 컴퓨터 사용 벤치마크는 42.0% → 72.1%로 30%포인트 이상 뜁니다. 화면 조작·폼 입력·브라우저 탐색 자동화가 실제로 크게 좋아진 영역입니다.
💡 OSWorld 72.1%는 인간 전문가 기준선(72.4%)과 거의 동일한 수치입니다. 데스크톱 자동화 성능만 놓고 보면 GPT-5.4 mini가 이미 사람 수준에 진입했다는 뜻입니다. (출처: OpenAI 공식 벤치마크 테이블, 2026.03.17)
요금 대비 성능 비율(코스트 퍼포먼스)로 계산하면 이야기가 달라집니다. GPT-5 mini($0.25/1M) 대비 GPT-5.4 mini($0.75/1M)는 3배 비쌉니다. SWE-Bench Pro 향상폭은 8.7%포인트입니다. 코딩 벤치마크만 놓고 본다면 요금 상승폭이 성능 향상폭보다 가파릅니다.
다만 컴퓨터 사용(+30%포인트), 툴 사용(Toolathlon 26.9% → 42.9%), 속도(2배 향상)까지 종합하면 단순 코딩 비용 비율로 판단하기 어렵습니다. 어떤 작업을 많이 하느냐에 따라 GPT-5 mini를 유지하는 게 나을 수도, GPT-5.4 mini로 올리는 게 나을 수도 있습니다.
자주 묻는 질문 5가지
마치며
다만 API 요금이 GPT-5 mini 대비 3배 오른 상태에서 출시됐고, 128K를 넘는 롱컨텍스트에서 성능이 절반 이하로 떨어지는 구간이 공식 벤치마크에 그대로 나와 있습니다. “경량 모델이니까 저렴하고 어디서든 쓸 수 있겠지”라는 예상과는 다른 부분입니다.
써보니까 이 모델이 잘 맞는 자리는 명확합니다. 짧은 컨텍스트 안에서 반복되는 하위 작업을 빠르게 처리하는 서브에이전트 역할입니다. 반대로 긴 파일 전체를 이해해야 하거나 비용 절감이 최우선이라면, 용도에 맞는 다른 선택지를 검토하는 편이 낫습니다.
📚 본 포스팅 참고 자료
- OpenAI 공식 블로그 — “Introducing GPT-5.4 mini and nano” (2026.03.17)
openai.com/index/introducing-gpt-5-4-mini-and-nano/ - OpenAI API 요금 공식 페이지 (2026.03.31 기준)
openai.com/api/pricing/ - OpenAI Codex 서브에이전트 공식 문서
developers.openai.com/codex/subagents/ - NxCode — “GPT 5.4 Complete Guide: Features, Pricing, Benchmarks” (2026.03.29)
nxcode.io
※ 본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. OpenAI의 서비스 정책·API 요금·UI·기능은 업데이트로 인해 본 포스팅 작성 이후 변경될 수 있습니다. 최신 정보는 반드시 OpenAI 공식 홈페이지에서 확인해 주세요.











댓글 남기기