GPT-5.4 mini, 공식 수치로 확인한 3가지 진실
2026년 3월 18일 새벽, OpenAI가 GPT-5.4 mini와 nano를 조용히 출시했습니다. 무료 사용자도 쓸 수 있다고 하고, 거의 플래그십 수준이라는데 — 직접 공식 문서를 뜯어보니 생각과 다른 부분이 꽤 있었습니다.
GPT-5.4 mini, 정확히 뭐가 달라졌나
이전 세대인 GPT-5 mini와 비교하면 변화가 꽤 뚜렷합니다. 코딩, 추론, 멀티모달 이해, 툴 사용 전반이 개선됐고, 속도는 GPT-5 mini 대비 2배 이상 빨라졌습니다. (출처: OpenAI 공식 발표, 2026.03.17) API에서는 텍스트·이미지 입력, 툴 사용, 함수 호출, 웹 검색, 컴퓨터 사용, 스킬 기능을 모두 지원합니다. 컨텍스트 윈도우는 40만 토큰으로, GPT-5.4 본 모델의 105만 토큰보다 크게 줄어든 점은 실무에서 주의가 필요합니다.
ChatGPT 앱에서는 ‘GPT-5.4 Thinking mini’라는 이름으로 노출됩니다. 무료 및 Go 사용자는 ‘+’ 메뉴에서 ‘잘 생각하기(Thinking)’를 활성화하면 이 모델이 작동합니다. Plus 이상 사용자에게는 GPT-5.4 Thinking 주간 한도를 다 소진했을 때 자동으로 전환되는 폴백(fallback) 모델로 기능합니다.
성능 수치 직접 확인 — 플래그십의 몇 %인가
OpenAI가 공개한 벤치마크 수치를 GPT-5.4와 직접 비교해 보면 mini의 위치가 더 명확하게 보입니다. (출처: OpenAI 공식 발표 Introducing GPT-5.4 mini and nano, 2026.03.17)
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| OSWorld-Verified (컴퓨터 조작) | 75.0% | 72.1% | 39.0% | 42.0% |
| GPQA Diamond (지식) | 93.0% | 88.0% | 82.8% | 81.6% |
| Terminal-Bench 2.0 (터미널) | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon (툴 호출) | 54.6% | 42.9% | 35.5% | 26.9% |
OSWorld-Verified 기준으로 mini(72.1%)는 플래그십(75.0%)의 96% 수준입니다. 컴퓨터 조작 작업에서 이 차이는 실사용 체감으로 거의 구분되지 않을 수 있습니다. 반면 Terminal-Bench 2.0에서는 mini(60.0%)와 플래그십(75.1%) 사이 격차가 눈에 띄게 벌어집니다. 터미널 에이전트처럼 긴 시퀀스의 명령을 이어서 실행하는 작업에서는 mini가 명확한 한계를 보인다는 뜻입니다.
💡 공식 발표 벤치마크와 실제 사용 흐름을 같이 놓고 보니, 컴퓨터 조작 계열 작업은 mini로 충분하지만 터미널 에이전트는 본 모델과 15%p 이상 격차가 납니다.
“더 작으면 더 싸다”는 게 함정인 이유
경량 모델이 나오면 으레 “이전 mini보다 싸겠지”라고 생각하게 됩니다. 그런데 이번에는 다릅니다. 나무위키와 OpenAI 공식 API 가격표를 교차 확인한 결과, GPT-5.4 mini의 API 입력 가격은 $0.75/1M 토큰으로, 이전 세대 GPT-5 mini($0.25/1M 토큰) 대비 정확히 3배 올랐습니다. 출력 가격도 $4.50/1M 토큰으로, GPT-5 mini($2.00/1M 토큰) 대비 2.25배 인상됐습니다. (출처: 나무위키 GPT-5 문서, OpenAI API 가격표)
| 모델 | 입력 (/1M 토큰) | 출력 (/1M 토큰) | 컨텍스트 |
|---|---|---|---|
| GPT-5 mini | $0.25 | $2.00 | 400K |
| GPT-5.4 mini | $0.75 (+3배) | $4.50 (+2.25배) | 400K |
| GPT-5.4 nano | $0.20 (+4배) | $1.25 (+3.125배) | 400K |
| GPT-5.4 (플래그십) | $2.50 | $15.00 | 1,050K |
nano의 인상 폭이 더 충격적입니다. GPT-5 nano 대비 입력이 4배, 출력이 3.125배 올라 mini보다 인상률이 높습니다. “가장 저렴한 모델이라 가격도 제일 많이 올랐다”는 역설적인 상황입니다. OpenAI는 이에 대한 별도 이유를 공식 발표에서 밝히지 않았습니다.
물론 맥락이 있습니다. GPT-5.4 mini는 성능이 이전 세대를 크게 앞서기 때문에, “더 비싸지만 더 나은 모델”이라는 해석이 가능합니다. 단순히 세대가 올라갔다고 자동으로 값이 내려가는 시대가 지나고 있다는 신호이기도 합니다.
무료·Go 사용자, 실제로 어디서 쓰게 되나
“무료 사용자도 쓸 수 있다”는 표현이 돌고 있는데, 실제 구조는 조금 다릅니다. OpenAI 공식 헬프센터 기준으로 정리하면 이렇습니다. (출처: OpenAI 헬프센터 GPT-5.3 and GPT-5.4 in ChatGPT, 2026년 3월 기준)
Free 사용자는 ‘+’ 메뉴에서 Thinking을 켜면 GPT-5.4 mini Thinking이 작동합니다. 단, 5시간마다 최대 10개 메시지 한도입니다. Go 사용자도 동일하게 5시간마다 최대 10개입니다. Plus 이상은 GPT-5.4 Thinking(본 모델) 주간 3,000개 한도를 다 소진한 뒤에야 mini로 자동 전환됩니다. 평상시엔 본 모델을 씁니다.
💡 Plus 주간 한도 소진 이후 자동 전환이 발생하기 때문에, 실사용자 입장에서 mini와 본 모델 간 경계선은 생각보다 불명확하게 작동합니다.
GPT-5.4 nano와 Claude Haiku 4.5, 솔직히 비교하면
경량 AI 모델 시장에서 가장 직접적인 비교 상대는 Anthropic의 Claude Haiku 4.5입니다. 가격을 먼저 보면, Claude Haiku 4.5는 입력 $1.00/1M 토큰, 출력 $5.00/1M 토큰입니다. GPT-5.4 nano($0.20/$1.25)가 입출력 모두 훨씬 저렴합니다. (출처: Datacamp GPT-5.4 mini and nano: Benchmarks, Access, and Reactions, 2026.03.17)
성능 비교에서는 주의가 필요합니다. 두 모델은 서로 다른 벤치마크 버전에서 테스트됐기 때문입니다. SWE-Bench 계열만 봐도, Claude Haiku 4.5는 SWE-Bench Verified에서 73.3%를 받았고, GPT-5.4 nano는 더 어려운 버전인 SWE-Bench Pro(Public)에서 52.4%를 받았습니다. 동일 선상 비교가 불가능합니다.
사과 대 사과로 비교할 수 있는 지표에서는 GPT-5.4 nano가 우위입니다. GPQA Diamond에서 nano(82.8%) vs Haiku 4.5(약 73%) — 약 9.8%p 차이. τ2-bench Telecom에서도 nano(92.5%) vs Haiku 4.5(약 83%) — 약 9.5%p 차이입니다. 반면 OSWorld 컴퓨터 조작에서는 Haiku 4.5가 일반 OSWorld 기준 50.7%를 기록한 반면, nano는 더 어려운 OSWorld-Verified에서 39.0%를 받았습니다. nano가 컴퓨터 조작에 최적화된 모델이 아니라는 것을 OpenAI도 인정하고 있습니다.
Codex에서 mini를 쓰는 게 실제로 이득인 경우
Codex 사용자에게 GPT-5.4 mini는 꽤 실질적인 선택지입니다. Codex에서 mini를 쓰면 GPT-5.4 쿼터의 30%만 소모합니다. 같은 쿼터로 GPT-5.4를 1번 쓸 때, mini는 3번 이상 쓸 수 있다는 계산이 나옵니다. (출처: OpenAI 공식 발표, 2026.03.17)
OpenAI가 권장하는 패턴은 이렇습니다. GPT-5.4가 전체 작업 계획과 최종 판단을 맡고, mini가 코드베이스 탐색·파일 리뷰·보조 문서 처리 같은 반복적인 하위 작업을 병렬로 처리합니다. 실제 Codex에서는 이 구조를 ‘서브에이전트 위임’ 기능으로 제공합니다. 대형 프로젝트에서 mini를 서브에이전트로 두면, 비용 대비 처리량이 크게 늘어납니다.
단, 장문 컨텍스트가 필요한 작업에서는 mini(40만 토큰)와 본 모델(105만 토큰) 간 컨텍스트 윈도우 차이가 걸림돌이 될 수 있습니다. 128만~256만 토큰을 초과하는 긴 코드베이스 분석은 본 모델만 커버합니다. 정리하면, mini는 “빠른 반복 + 제한된 범위”의 작업에서, 본 모델은 “긴 컨텍스트 + 고정밀 판단”이 필요한 작업에서 써야 합니다.
💡 OSWorld 벤치마크와 Codex 쿼터 구조를 같이 보면, mini의 실질적 포지션이 드러납니다. 단순히 “저렴한 대안”이 아니라, 아키텍처적으로 적합한 역할이 따로 있습니다.
Q&A 5가지
Q1. GPT-5.4 mini를 ChatGPT 무료 계정에서 쓸 수 있나요?
쓸 수 있습니다. ChatGPT 앱에서 ‘+’ 아이콘 → ‘잘 생각하기(Thinking)’ 메뉴를 활성화하면 Free 계정에서도 GPT-5.4 mini Thinking이 작동합니다. 단, 5시간마다 최대 10개 메시지 한도가 적용됩니다. (출처: OpenAI 헬프센터, 2026.03 기준)
Q2. GPT-5.4 nano는 ChatGPT 앱에서 쓸 수 있나요?
없습니다. GPT-5.4 nano는 API 전용으로만 제공됩니다. ChatGPT 웹·앱·Codex에서는 접근할 수 없고, 개발자가 API로 직접 호출해야 합니다. (출처: OpenAI 공식 발표, 2026.03.17)
Q3. API 가격이 이전 mini보다 올랐는데, 그래도 쓸 만한가요?
용도에 따라 다릅니다. 성능이 대폭 올랐기 때문에 같은 품질의 결과물을 내는 데 필요한 토큰 수가 줄어들 수 있습니다. OpenAI는 “더 적은 토큰으로 같은 결과”를 강조하는데, 이 부분은 실제 워크로드에서 직접 측정해야 합니다. 가격만 보면 올랐지만, 토큰 효율까지 고려하면 실제 비용은 케이스마다 다릅니다.
Q4. GPT-5 mini Thinking은 언제까지 쓸 수 있나요?
Q5. Codex에서 GPT-5.4 mini를 쓰면 얼마나 절약되나요?
마치며
개인적으로 가장 흥미로운 지점은 Codex에서의 서브에이전트 역할입니다. AI 개발 생태계가 단일 대형 모델에서 “큰 모델이 지휘, 작은 모델이 실행”하는 구조로 빠르게 옮겨가고 있는데, GPT-5.4 mini는 그 구조에서 작은 모델 자리를 꽤 잘 채웁니다. 앞으로 AI 도구를 고를 때 단순히 ‘어느 모델이 제일 좋나’가 아니라 ‘어떤 역할에 어떤 모델을 배치하느냐’가 더 중요한 질문이 될 것 같습니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano (openai.com)
- OpenAI 공식 발표 — Introducing GPT-5.4 (openai.com)
- OpenAI 헬프센터 (한국어) — ChatGPT의 GPT-5.3 및 GPT-5.4 (help.openai.com)
- Datacamp — GPT-5.4 mini and nano: Benchmarks, Access, and Reactions (datacamp.com)
- ZDNET — OpenAI’s GPT-5.4 mini and nano launch (zdnet.com)
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 28일 기준 공식 발표 자료를 근거로 합니다. OpenAI가 공식 답변을 내놓지 않은 부분(예: 가격 인상 이유 등)은 그렇게 표기했습니다.











댓글 남기기