GPT-5.4 mini 공식 기준
GPT-5.4 mini 벤치마크 5개,
공식 문서에서 직접 확인했습니다
2026년 3월 18일, OpenAI가 GPT-5.4 mini와 nano를 동시에 공개했습니다. 출시 발표문에는 “Free 및 Go 사용자도 Thinking 기능 사용 가능”이라는 문구가 담겨 있습니다. 그런데 공식 릴리스 노트를 직접 읽어보면, 그 조건이 예상과 꽤 다릅니다.
GPT-5.4 mini가 뭔지 먼저 짚고 갑니다
GPT-5.4 mini는 2026년 3월 18일(KST) OpenAI가 공식 출시한 GPT-5.4 계열의 경량 모델입니다. GPT-5 mini의 직계 후속 모델로, 코딩·추론·멀티모달 이해·도구 사용 전반에서 GPT-5 mini 대비 성능이 크게 향상됐고 속도는 2배 이상 빨라졌습니다. (출처: OpenAI 공식 블로그, 2026.03.17)
단순히 큰 모델의 축소판이 아닙니다. API는 물론 OpenAI Codex와 ChatGPT에서 모두 사용할 수 있도록 배포됐고, 특히 Codex 환경에서는 GPT-5.4 할당량의 30%만 소비해 비용 구조 자체가 달라집니다. 쉽게 말해 같은 예산으로 3배 더 많이 돌릴 수 있다는 뜻입니다.
이번 글은 공식 발표문과 릴리스 노트, 그리고 실사용 데이터를 교차 확인해 수치 하나하나를 직접 검증한 내용입니다. 마케팅 문구가 아니라 벤치마크 숫자에 집중합니다.
성능 수치 5개, 공식 문서에서 직접 뽑았습니다
OpenAI 공식 발표문(openai.com)에 공개된 벤치마크를 항목별로 정리했습니다. 비교 기준은 GPT-5.4 mini(xhigh)와 전 세대 GPT-5 mini(high)입니다.
| 벤치마크 | GPT-5.4 mini | GPT-5 mini | GPT-5.4 (풀) |
|---|---|---|---|
| ① SWE-Bench Pro (코딩) | 54.4% | 45.7% | 57.7% |
| ② OSWorld-Verified (컴퓨터 제어) | 72.1% | 42.0% | 75.0% |
| ③ GPQA Diamond (고난도 지식) | 88.0% | 81.6% | 93.0% |
| ④ Toolathlon (도구 호출) | 42.9% | 26.9% | 54.6% |
| ⑤ Terminal-Bench 2.0 (터미널) | 60.0% | 38.2% | 75.1% |
가장 인상적인 건 OSWorld 수치입니다. 전 세대 mini가 42%였는데 이번 mini가 72.1%로, 폭이 30%p 넘습니다. 풀 모델(75%)과의 격차는 불과 3%p — 컴퓨터 제어 작업 한정으로는 사실상 같은 급입니다.
Free 사용자도 Thinking 쓸 수 있다 — 단, 이 조건입니다
💡 공식 릴리스 노트와 발표문을 같이 놓고 보니 이런 차이가 보였습니다 — “사용 가능”과 “선택 가능”은 다른 말입니다.
OpenAI 릴리스 노트(2026.03.18)에 이렇게 나옵니다: “GPT-5.4 mini는 모델 선택기에서 선택 가능한 모델로 표시되지 않습니다.” Free·Go 사용자는 ‘+’ 메뉴의 ‘잘 생각하기(Thinking)’를 눌러 쓸 수 있긴 합니다. (출처: OpenAI Help Center, 2026.03.18)
그런데 여기서 실제로 작동하는 방식이 중요합니다. Free·Go 사용자 입장에서 ‘Thinking’을 켜면 GPT-5.4 mini가 구동되는 것이지, GPT-5.4 본 모델이 아닙니다. Plus·Pro·Team 요금제 사용자의 경우 GPT-5.4 Thinking 한도를 다 쓰면 자동으로 mini로 폴백(fallback)되는 구조입니다. 직접 mini를 골라서 쓰는 게 아니라는 뜻입니다.
기존 GPT-5 Thinking mini는 이 출시에 맞춰 2026년 4월 18일에 지원이 종료될 예정입니다. 현재 GPT-5 Thinking mini를 쓰고 있었다면 30일 안에 자동 전환됩니다.
📌 요약하면: Free 사용자는 Thinking 버튼으로 GPT-5.4 mini를 쓸 수 있습니다. 단, 모델 선택기에는 표시되지 않고, Plus 이상은 한도 소진 시 자동 전환됩니다. “무료로 GPT-5.4 Thinking이 됩니다”라고 읽으면 틀립니다.
nano가 mini보다 못하다고요? 이 수치가 다릅니다
💡 nano를 “mini의 열화판”으로 보는 시각이 많은데, 공식 벤치마크를 올려놓고 보면 한 항목에서 예상과 반대 방향이 나옵니다.
GPT-5.4 nano는 OpenAI가 “분류·데이터 추출·랭킹·단순 코딩 서브에이전트” 용도를 명시한 모델입니다. 가격은 API 기준 입력 $0.20/100만 토큰, 출력 $1.25/100만 토큰으로, mini($0.75 / $4.50) 대비 약 3~4배 저렴합니다. (출처: OpenAI 공식 블로그, 2026.03.17)
그런데 OSWorld-Verified 점수를 보면 nano가 39.0%입니다. 전 세대 GPT-5 mini가 42.0%였으니, nano는 전 세대 mini보다 낮습니다. OpenAI가 공식 발표문에서 “GPT-5.4 family”라고 묶어서 소개했기 때문에, nano도 GPT-5.4 수준의 컴퓨터 제어 능력을 가진다고 오해하기 쉽습니다. 컴퓨터 제어 파이프라인에 nano를 끼워 넣으면 오히려 전 세대보다 성능이 떨어집니다.
단, nano가 mini를 압도하는 영역은 따로 있습니다. 단순 분류와 데이터 추출처럼 추론 깊이가 필요 없는 태스크에서는 가격 대비 처리량이 압도적입니다. mini 대비 4배 싼 비용으로 같은 수의 호출을 처리할 수 있으면, 파이프라인 전체 단가가 바뀝니다.
| 항목 | GPT-5.4 mini | GPT-5.4 nano |
|---|---|---|
| OSWorld (컴퓨터 제어) | 72.1% | 39.0% |
| Terminal-Bench 2.0 | 60.0% | 46.3% |
| API 입력 가격 (100만 토큰) | $0.75 | $0.20 |
| ChatGPT 접근 | 가능 | API 전용 |
nano는 ChatGPT에서 쓸 수 없습니다. API에서만 접근 가능합니다. (출처: OpenAI 공식 블로그, 2026.03.17)
서브에이전트 구조로 쓰면 달라지는 이유
💡 GPT-5.4 mini를 “저렴한 GPT-5.4″로만 보면 절반만 맞습니다. OpenAI 공식 발표문이 명시한 설계 의도는 다른 곳에 있습니다.
OpenAI는 GPT-5.4 mini의 핵심 사용 시나리오로 서브에이전트(subagent) 아키텍처를 제시했습니다. GPT-5.4가 전체 계획을 세우고 흐름을 조율하면, mini가 코드베이스 검색·대용량 파일 검토·보조 문서 처리 같은 좁은 하위 작업을 병렬로 처리하는 방식입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Codex 환경에서 GPT-5.4 mini는 GPT-5.4 할당량의 30%만 소비합니다. 같은 할당량으로 mini 호출을 3.3배 더 많이 쓸 수 있다는 뜻입니다. 여러 파일을 병렬로 처리하는 코딩 워크플로에서는 이 구조가 단순히 모델 하나를 고성능으로 바꾸는 것보다 비용 효율이 높아집니다.
실사용 사례도 있습니다. AI 스타트업 Hebbia의 CTO Aabhas Sharma는 특정 워크플로에서 mini가 풀 모델 GPT-5.4보다 높은 end-to-end 통과율을 보였다고 밝혔습니다. 이유는 간단합니다 — 작은 태스크에 풀 모델을 투입하면 오히려 과잉 추론으로 응답이 흔들릴 수 있기 때문입니다. 큰 모델이 항상 정답은 아닙니다.
장기 문서에서 조심해야 할 수치가 있습니다
OSWorld 수치가 인상적이어서 GPT-5.4 mini를 전면 대체제로 쓰고 싶은 생각이 들 수 있습니다. 그런데 장기 컨텍스트 벤치마크를 보면 분위기가 달라집니다.
공식 문서에 공개된 OpenAI MRCR v2(8개 정보를 64K~128K 맥락에서 찾는 태스크)에서 GPT-5.4 mini는 47.7%입니다. 풀 모델 GPT-5.4가 86.0%라는 점을 감안하면 38.3%p 차이입니다. (출처: OpenAI 공식 블로그, 2026.03.17) 128K~256K 구간에서는 mini가 33.6%까지 내려갑니다.
컨텍스트 윈도우 자체도 다릅니다. GPT-5.4 본 모델은 1,050,000 토큰이고 mini와 nano는 400,000 토큰입니다. 수치로 보면 mini는 풀 모델의 약 38% 수준입니다. 수백 페이지짜리 PDF 분석처럼 긴 문서 안에서 여러 단서를 동시에 추적해야 하는 작업에 mini를 투입하면, 추론 정확도가 크게 떨어질 수 있습니다.
⚠️ 주의: 장기 계약서 검토, 수백 페이지 보고서 요약처럼 맥락이 긴 작업에는 mini보다 풀 모델이 유리합니다. 비용을 아끼려다 정확도를 잃는 구간이 정확히 이 지점입니다.
프론트엔드 생성 작업도 마찬가지입니다. OpenAI가 공식적으로 별도 이유를 밝히지 않았지만, 실사용 커뮤니티에서는 mini 계열이 프론트엔드 UI 생성에서 여전히 한계가 있다는 피드백이 나옵니다. 코딩 수치가 전반적으로 올랐어도 이 영역은 직접 테스트해보고 결정하는 게 안전합니다.
Q&A 5개
마치며
GPT-5.4 mini는 확실히 전 세대 mini와 다른 물건입니다. OSWorld 30%p 상승은 단순 수치 개선이 아니라, 컴퓨터 제어 태스크에서 사실상 풀 모델과 같은 급이 됐다는 신호입니다.
그래도 조심해야 할 지점은 두 가지입니다. 첫째, 장기 문서 작업에서는 mini가 풀 모델에 비해 38%p 이상 차이가 납니다. 둘째, nano를 컴퓨터 제어 파이프라인에 넣으면 전 세대 mini보다 낮은 성능이 나옵니다. 이 두 가지만 피하면 GPT-5.4 mini는 비용 대비 꽤 실용적인 선택입니다.
솔직히 말하면, “Free도 Thinking 됩니다”라는 홍보 문구가 조금 아쉽습니다. 모델 선택기에 없고 폴백 방식이라는 조건을 같이 강조했으면 더 좋았을 것 같습니다. 쓰기 전에 공식 릴리스 노트를 한 번쯤 직접 읽어보시는 걸 권장합니다.
본 포스팅 참고 자료
- OpenAI 공식 블로그 — GPT-5.4 mini 및 nano 출시 발표
https://openai.com/ko-KR/index/introducing-gpt-5-4-mini-and-nano/ - OpenAI Help Center — 모델 출시 노트 (2026.03.18 업데이트)
https://help.openai.com/ko-kr/articles/9624314-model-release-notes - Adam Holter — GPT-5.4 Mini and Nano: Benchmarks, Pricing, and What They’re Good For (2026.03.18)
https://adam.holter.com/gpt-5-4-mini-and-nano-benchmarks-pricing-and-what-theyre-actually-good-for/
본 포스팅은 2026년 3월 21일 기준으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
최신 정보는 OpenAI 공식 홈페이지에서 확인하세요.











댓글 남기기