GPT-5.4 mini 2026.03.17 출시
OpenAI 공식 기준
GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다
GPT-5.4 mini가 3월 17일 출시됐습니다. “결국 유료 플랜만 쓸 수 있는 거 아닌가” 싶었는데, Free 유저도 Thinking 메뉴로 접근됩니다. 그런데 막상 쓰다 보면 생각보다 중요한 제약이 있습니다. 공식 벤치마크 수치를 그대로 뽑아봤습니다.
GPT-5.4 mini가 뭔지 30초 정리
GPT-5.4 mini는 2026년 3월 17일 OpenAI가 GPT-5.4 nano와 함께 출시한 경량 모델입니다. GPT-5.4의 핵심 성능을 유지하면서 속도를 높이고 비용을 낮춘 게 목적이었고, 공식 설명에 따르면 GPT-5 mini보다 “2배 이상 빠른 속도로 월등히 향상된 성능”을 제공한다고 했습니다. (출처: OpenAI 공식 발표, 2026.03.17)
GPT-5.4 mini가 나오기 전까지 경량 모델의 기준은 GPT-5 mini였습니다. SWE-bench Pro 기준으로 GPT-5 mini는 45.7%였는데, GPT-5.4 mini는 54.4%까지 올라왔습니다. 수치만 보면 약 8.7%포인트 차이인데, 실제 코딩 작업에서 체감하면 꽤 의미 있는 격차입니다.
기존 블로그들이 많이 다룬 부분은 여기까지입니다. “싸고 빠르다, GPT-5.4 수준에 근접한다”는 이야기는 어디서든 봤을 겁니다. 이 글에서는 그 다음 이야기 — 어디서 쓰면 좋고, 어디서 쓰면 손해인지 — 를 수치와 함께 짚겠습니다.
Free 유저도 쓸 수 있습니다 — 조건이 있습니다
“ChatGPT Free는 GPT-5.4를 못 쓴다”는 인식이 퍼져 있습니다. 맞는 말이지만, GPT-5.4 mini는 예외입니다. OpenAI의 릴리스 노트에 이렇게 나와 있습니다.
“GPT‑5.4 mini is available to Free and Go users via the Thinking feature in the + menu.”
(출처: OpenAI Help Center 릴리스 노트, 2026.03.18)
Free와 Go 티어 사용자는 채팅창 하단 + 메뉴 → Thinking을 누르면 GPT-5.4 mini가 작동합니다. 단, 이 모델은 모델 선택 메뉴에 직접 노출되지 않습니다. Plus, Pro 등 유료 플랜 사용자에게는 GPT-5.4 Thinking의 사용량 한도를 채웠을 때 자동 대체(fallback) 모델로 작동합니다.
💡 공식 발표문과 실제 접근 흐름을 같이 놓고 보니 이런 차이가 보였습니다
GPT-5.4 Thinking이 “유료 전용”이라는 말은 사실입니다. 그런데 GPT-5.4 mini를 통한 Thinking 접근은 Free 유저에게도 열려 있습니다. 같은 “Thinking 기능”이라도 어떤 모델이 뒤에서 작동하느냐가 플랜마다 다르게 설정된 구조입니다.
GPT-5 Thinking mini는 이 업데이트 후 30일 내에 선택 가능한 모델 목록에서 제거됩니다. 즉 이제 Free 유저의 Thinking = GPT-5.4 mini로 통일된다고 보면 됩니다. 업그레이드된 셈입니다.
벤치마크 수치, 직접 확인했습니다
OpenAI 공식 발표에 담긴 벤치마크 표를 그대로 정리했습니다. 비교 기준은 GPT-5.4(메인), GPT-5.4 mini, GPT-5.4 nano, GPT-5 mini(이전 세대 경량 모델) 네 가지입니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 (터미널) | 75.1% | 60.0% | 46.3% | 38.2% |
| GPQA Diamond (추론) | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified (컴퓨터 조작) | 75.0% | 72.1% | 39.0% | 42.0% |
| Toolathlon (툴 호출) | 54.6% | 42.9% | 35.5% | 26.9% |
(출처: OpenAI 공식 발표 “Introducing GPT‑5.4 mini and nano”, 2026.03.17. xhigh reasoning effort 기준)
코딩(SWE-bench Pro)에서는 메인 모델의 94%, 컴퓨터 조작(OSWorld)에서는 96%에 달합니다. 이 두 영역에서는 mini와 Standard의 차이가 거의 없습니다. 추론(GPQA Diamond)도 88%로 메인 대비 5포인트 차이에 불과합니다.
롱 컨텍스트에서 성능이 절반으로 떨어집니다
💡 벤치마크 표에서 롱 컨텍스트 섹션만 따로 놓고 보면 이야기가 달라집니다
코딩, 추론, 컴퓨터 조작에서는 mini가 Standard에 근접했습니다. 그런데 긴 문서를 다루는 롱 컨텍스트 성능에서는 완전히 다른 모습입니다. 이 부분을 별도 섹션으로 다루는 글이 아직 없어서 직접 수치를 뽑았습니다.
| 롱 컨텍스트 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| MRCR v2 8-needle 64K~128K | 86.0% | 47.7% | 35.1% |
| MRCR v2 8-needle 128K~256K | 79.3% | 33.6% | 19.4% |
| Graphwalks parents 0~128K | 89.8% | 71.5% | 64.3% |
(출처: OpenAI 공식 발표 “Introducing GPT‑5.4 mini and nano”, 2026.03.17)
64K~128K 구간을 보면 GPT-5.4는 86.0%인데, GPT-5.4 mini는 47.7%로 절반 아래입니다. 약 38포인트 차이입니다. 128K~256K 구간에서는 79.3% vs 33.6%로 격차가 더 벌어집니다. 즉 문서 길이가 64K 토큰(약 4만 8천 단어)을 넘어가는 순간부터 mini의 성능은 Standard와 완전히 다른 레벨이 됩니다.
⚠️ 실사용 기준: 긴 코드베이스 분석, 긴 계약서 검토, 논문 여러 편 동시 분석처럼 64K 토큰을 넘기는 작업에 GPT-5.4 mini를 쓰면 엉뚱한 결과가 나올 수 있습니다. 롱 컨텍스트 작업은 반드시 GPT-5.4 Standard(API)나 Thinking을 써야 합니다.
GPT-5.4 mini의 컨텍스트 윈도우 자체는 400K 토큰입니다. (출처: ZDNET, 2026.03.17) 물리적으로 긴 문서를 넣을 수는 있습니다. 그런데 넣을 수 있다는 것과 제대로 처리한다는 건 다른 이야기입니다. 공식 벤치마크가 이걸 명확하게 보여줍니다.
Codex 쿼터 3배 넘게 늘리는 방법
💡 OpenAI 공식 발표에서 이 수치를 보고서야 실제 활용 방향이 잡혔습니다
Codex에서 GPT-5.4 mini는 GPT-5.4의 쿼터를 30%만 소비합니다. 이게 단순한 “싸다”는 이야기가 아닙니다. 쿼터 한도가 고정된 환경에서 작업량을 사실상 3배 이상 늘릴 수 있다는 뜻입니다.
OpenAI 공식 발표문에 이렇게 나와 있습니다. “Uses only 30% of the GPT‑5.4 quota, letting developers quickly handle simpler coding tasks in Codex for about one-third the cost.” (출처: OpenAI, 2026.03.17)
계산해보면 이렇습니다. GPT-5.4로 10개 작업을 처리할 수 있는 쿼터가 있다고 가정하면, 같은 쿼터로 GPT-5.4 mini는 33개 작업을 처리할 수 있습니다. 물론 mini와 Standard의 결과 품질이 다르지만, 단순 파일 검색, 코드 서브태스크 처리, 반복적인 코드 리뷰처럼 정밀도보다 속도가 중요한 작업이라면 mini가 훨씬 실용적입니다.
여기서 OpenAI가 제안하는 아키텍처가 있습니다. 복잡한 설계·판단은 GPT-5.4(또는 Thinking)가 맡고, 반복적인 하위 작업(codebase 탐색, 파일 검토, 문서 처리)은 GPT-5.4 mini 서브에이전트에게 병렬로 넘기는 방식입니다. Codex 공식 문서에서 “subagents” 항목에서 직접 확인할 수 있는 구조입니다.
🔢 쿼터 활용 시뮬레이션
- GPT-5.4 Thinking으로 플랜 수립 1건 → 쿼터 100% 소모
- GPT-5.4 mini 서브에이전트 3건 병렬 처리 → 쿼터 90% 소모 (건당 30%)
- 총 4건 처리에 쿼터 190% 소모 vs GPT-5.4 단독 4건: 400% 소모
- → 동일 쿼터로 처리량 약 2배 증가
(추정 계산. 실제 작업 복잡도에 따라 달라질 수 있음)
GPT-5.4 Standard와 뭐가 다른가
가격 차이가 핵심입니다. API 기준으로 GPT-5.4 Standard는 입력 $2.50, 출력 $15.00(1M 토큰당)입니다. GPT-5.4 mini는 입력 $0.75, 출력 $4.50입니다. (출처: OpenAI ZDNET 보도, 2026.03.17) 입력 기준으로 약 3.3배, 출력 기준으로 약 3.3배 저렴합니다.
| 항목 | GPT-5.4 Standard | GPT-5.4 mini |
|---|---|---|
| API 입력 (1M 토큰) | $2.50 | $0.75 |
| API 출력 (1M 토큰) | $15.00 | $4.50 |
| 컨텍스트 윈도우 | 272K (표준) / 1M (API) | 400K |
| SWE-bench Pro | 57.7% | 54.4% |
| 롱 컨텍스트 (64K~128K) | 86.0% | 47.7% |
| ChatGPT 접근 방식 | Plus 이상 / Thinking 선택 | Free·Go 포함 전 플랜 |
(출처: OpenAI 공식 발표, ZDNET 보도 2026.03.17. ChatGPT 플랜 기준 OpenAI Help Center 2026.03.18)
솔직히 말하면, API로 고볼륨 작업을 돌리는 개발자라면 mini는 매력적입니다. Standard 대비 3.3배 저렴하면서 코딩 성능의 94%를 유지합니다. 단, 롱 컨텍스트 작업에서의 급락은 반드시 염두에 둬야 합니다.
이 모델이 맞는 상황, 아닌 상황
수치를 봤으면 이제 판단이 쉽습니다. 쓰기 좋은 상황과 쓰면 안 되는 상황을 정리했습니다.
✅ GPT-5.4 mini가 잘 맞는 상황
- 단일 파일/소규모 코드베이스 편집
- API 고볼륨 자동화 파이프라인
- ChatGPT Free 유저의 Thinking 활용
- Codex 서브에이전트 작업
- 이미지·스크린샷 포함 컴퓨터 조작 (OSWorld 72.1%)
- 분류, 데이터 추출, 간단한 질의응답
❌ GPT-5.4 Standard를 써야 하는 상황
- 64K 토큰 이상 문서 분석 (MRCR 벤치마크 급락)
- 대규모 코드베이스 전체 리뷰
- 논문·계약서 다수 동시 처리
- 복잡한 멀티스텝 에이전트 플래닝
- 정확도가 핵심인 법률·의료 문서 분석
- Toolathlon 성능이 중요한 복합 툴 호출 워크플로우
개인적으로 GPT-5.4 mini에서 가장 의외였던 건 OSWorld-Verified 수치였습니다. GPT-5.4 대비 96% 수준(75.0% vs 72.1%)이라는 건, 컴퓨터 화면을 보고 동작하는 에이전트 용도로는 mini와 Standard의 실질적인 차이가 거의 없다는 뜻입니다. 비용을 3분의 1로 줄이면서 같은 정도의 컴퓨터 조작 에이전트를 만들 수 있습니다.
자주 묻는 질문
Q. ChatGPT Free 유저가 GPT-5.4 mini를 쓰는 방법이 뭔가요?
ChatGPT 채팅창 하단의 + 버튼을 누르면 메뉴가 열립니다. 여기서 “Thinking”을 선택하면 GPT-5.4 mini가 작동합니다. 모델 선택 목록에는 GPT-5.4 mini가 직접 표시되지 않지만, Thinking 기능이 내부적으로 이 모델을 사용합니다. (출처: OpenAI Help Center, 2026.03.18)
Q. GPT-5.4 nano와 mini는 어떻게 다른가요?
nano는 더 작고 저렴한 모델로 API 전용 제공입니다(ChatGPT에서는 사용 불가). API 가격은 입력 $0.20, 출력 $1.25(1M 토큰당)입니다. mini와 비교하면 SWE-bench Pro 52.4% vs 54.4%, OSWorld 39.0% vs 72.1%로 컴퓨터 조작 성능 차이가 큽니다. 분류, 데이터 추출, 단순 서브에이전트 작업에 nano를 추천합니다.
Q. GPT-5 mini에서 GPT-5.4 mini로 전환해도 되나요?
성능이 전반적으로 향상됐으므로 전환을 권장합니다. SWE-bench Pro 기준 45.7% → 54.4%로 올랐고 속도도 2배 이상 빠릅니다. 단, 롱 컨텍스트 작업을 GPT-5 mini로 처리하고 있었다면 두 모델 모두 64K 토큰 이상에서 성능이 제한적이므로 해당 작업은 Standard로 이관하는 게 맞습니다.
Q. Plus 플랜이면 GPT-5.4 mini를 직접 선택할 수 있나요?
직접 선택은 불가합니다. GPT-5.4 mini는 모델 피커에 표시되지 않습니다. Plus 유저에게는 GPT-5.4 Thinking의 사용량 한도(80 메시지/3시간)를 소진했을 때 자동으로 fallback 모델로 작동합니다. Plus에서 Thinking 한도를 채운 뒤에도 계속 Thinking이 작동한다면 GPT-5.4 mini가 돌아가고 있는 겁니다. (출처: OpenAI Help Center, 2026.03.18)
Q. Codex에서 GPT-5.4 mini를 수동으로 선택할 수 있나요?
Codex 앱, CLI, IDE 익스텐션, 웹 모두에서 GPT-5.4 mini를 사용할 수 있습니다. 또한 Codex가 자동으로 서브에이전트 작업에 mini를 활용할 수도 있으며, 개발자가 직접 서브에이전트로 설정하는 것도 가능합니다. Codex 공식 문서의 subagents 섹션에 설정 방법이 나와 있습니다.
마치며 — 총평
GPT-5.4 mini를 한 문장으로 정리하면 이렇습니다. “코딩·멀티모달 작업에서는 Standard 수준이지만, 긴 문서를 다룰 때는 Standard를 써야 한다.”
Free 유저에게 Thinking이 열린 건 체감상 의미 있는 변화입니다. 기존 GPT-5 Thinking mini보다 코딩 성능이 8.7포인트 오른 채로 무료 접근이 가능해졌습니다. 여기에 Codex 쿼터를 30%만 소모하는 구조는 실제 개발 워크플로우에서 꽤 실용적으로 쓸 수 있는 설계입니다.
다만 롱 컨텍스트 성능 급락은 사용 전에 반드시 알고 있어야 합니다. 64K 토큰 초과 구간에서의 47.7%(Standard 86.0%)는 마케팅 자료에서는 강조되지 않는 수치입니다. 공식 벤치마크에 그대로 나와 있지만, 총정리 글들이 이 부분을 별도로 다루지 않는 경우가 많습니다. 이 제약을 알고 시작하면 기대와 실제 사이의 간격을 좁힐 수 있습니다.
📌 본 포스팅 참고 자료
본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. OpenAI의 서비스 정책·가격·모델 스펙·UI는 업데이트로 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 반드시 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다.

댓글 남기기