GPT-5.4 mini 공식 출시
OpenAI 공식 발표 기준
GPT-5.4 mini, 빠르다고요?
이 조건에서만 맞습니다
2026년 3월 18일, OpenAI가 GPT-5.4 mini와 nano를 동시에 출시했습니다. “가장 강력한 소형 모델”이라는 수식어가 붙었고, Free 티어에서도 쓸 수 있다는 점이 화제입니다. 그런데 공식 벤치마크를 꼼꼼히 보면, 빠르고 저렴하다는 게 모든 상황에 해당하지는 않습니다.
GPT-5.4 mini가 정확히 뭔가요? — 출시 배경부터
(출처: OpenAI 공식 발표, 2026.03.17)
기존의 소형 모델들은 그냥 비싼 모델을 작게 줄인 버전이었습니다. 그런데 GPT-5.4 mini는 OpenAI가 공식 발표에서 “서브에이전트 역할에 특화된 실행 모델”이라고 직접 표현했습니다. 쉽게 말해, 혼자 다 하는 모델이 아니라 큰 모델이 지시를 내리고 mini가 빠르게 실행하는 구조에 맞춰 설계됐다는 뜻입니다. 모델 설계 철학 자체가 달라진 겁니다.
(출처: OpenAI 공식 발표, 2026.03.17)
Free 티어도 쓸 수 있는데, 방법이 숨어 있습니다
💡 공식 릴리스노트와 실제 ChatGPT 화면 흐름을 같이 놓고 보니, “Free에서도 Thinking 쓸 수 있다”는 말이 생각보다 좁은 조건 안에서만 해당한다는 게 보였습니다.
(출처: OpenAI 모델 릴리스노트, 2026.03.18)
Plus·Pro·Team 같은 유료 사용자에게는 그 방식이 또 다릅니다. GPT-5.4 Thinking을 주로 쓰다가 요청 한도에 도달하면 자동으로 GPT-5.4 mini로 대체됩니다. 쉽게 말해, 풀 모델을 다 쓰고 나면 mini로 이어받는 구조입니다. 의도적으로 mini를 선택해서 쓰는 것과 한도 초과 후 자동 전환되는 것은 경험이 다를 수 있습니다.
또 하나, GPT-5 Thinking mini는 30일 뒤 모델 선택기에서 아예 사라집니다. GPT-5.4 mini가 그 자리를 완전히 대체하는 구조입니다.
(출처: OpenAI 공식 릴리스노트, 2026.03.18)
공식 수치가 말하는 강점 — 코딩과 컴퓨터 사용
OpenAI가 공개한 벤치마크 중 가장 눈에 띄는 건 OSWorld-Verified 점수입니다. GPT-5.4 mini가 72.1%인데 풀 모델 GPT-5.4가 75.0%입니다. 차이가 2.9%p밖에 안 납니다. 이 항목은 AI가 실제 컴퓨터 화면을 보고 작업을 수행하는 능력을 측정하는 벤치마크입니다. 사람이 마우스로 클릭하고 입력하는 것처럼 AI가 UI를 조작하는 시나리오를 테스트합니다. 플래그십에 거의 근접한다는 게 수치로 나온 셈입니다.
(출처: OpenAI 공식 발표, 2026.03.17)
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| τ2-bench (툴 호출) | 98.9% | 93.4% | 92.5% | 74.1% |
출처: OpenAI 공식 발표 (2026.03.17), reasoning_effort=xhigh 기준
코딩 벤치마크인 SWE-Bench Pro에서도 mini(54.4%)와 풀 모델(57.7%)의 격차는 3.3%p입니다. 비용이 훨씬 저렴한 모델이 코딩 정확도에서 이 정도 차이라면, 단순 반복 코딩 작업에서 굳이 풀 모델을 쓸 이유가 줄어듭니다.
툴 호출 정확도(τ2-bench)에서 GPT-5.4 mini가 93.4%를 기록했고, GPT-5 mini는 74.1%였습니다. 19.3%p 차이입니다. 에이전트가 툴을 잘못 호출하면 조용히 실패하는 경우가 많기 때문에, 실제 프로덕션 워크플로에서 이 수치는 코딩 점수보다 더 중요하게 작용할 수 있습니다.
(출처: OpenAI 공식 발표, 2026.03.17)
장문 처리에서는 풀 모델의 절반도 안 됩니다
💡 코딩 점수만 보면 mini가 플래그십에 거의 붙는다고 보이는데, 장문 추론 수치를 같이 놓으니 완전히 다른 그림이 나왔습니다.
OpenAI가 공개한 장문 처리 벤치마크(MRCR v2, 8-needle)에서 128K~256K 구간을 보면, GPT-5.4 mini의 점수는 33.6%입니다. 풀 모델 GPT-5.4가 79.3%이니까 절반에도 미치지 못합니다. 이 수치가 뭘 의미하냐면, 30만 자가 넘는 긴 문서나 코드베이스 전체를 컨텍스트에 넣고 특정 정보를 정확히 찾아내야 하는 작업에서 mini는 꽤 많이 빠진다는 뜻입니다.
(출처: OpenAI 공식 발표, 2026.03.17)
| 장문 처리 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| MRCR v2 64K-128K | 86.0% | 47.7% | 35.1% |
| MRCR v2 128K-256K | 79.3% | 33.6% | 19.4% |
| Graphwalks BFS 0-128K | 93.1% | 76.3% | 73.4% |
출처: OpenAI 공식 발표 (2026.03.17), reasoning_effort=xhigh 기준
400K 컨텍스트 윈도우를 지원한다고 하지만, 실제로 후반부 컨텍스트까지 정확하게 처리하는 건 별개의 문제입니다. 컨텍스트 윈도우가 크다 = 긴 문서를 넣을 수 있다는 의미이고, 그 안에서 얼마나 정확하게 정보를 끌어내느냐가 실제 성능입니다. mini는 128K를 넘어가면 정확도가 크게 떨어집니다.
결론적으로, 대형 코드베이스 전체 분석이나 긴 계약서 전체 검토처럼 문서 길이 자체가 핵심인 작업에서는 mini를 쓰면 예상보다 많이 빠질 수 있습니다. 이 구간에서는 플래그십 모델을 유지하는 게 맞습니다.
가격 비교 — 경쟁 모델과 나란히 놓아봤습니다
API를 쓴다면 가격은 결정적인 변수입니다. GPT-5.4 mini는 입력 1M 토큰당 $0.75, 출력 1M 토큰당 $4.50입니다. 캐시된 입력은 $0.075로 10분의 1 수준입니다. 풀 모델 GPT-5.4가 입력 $2.50 / 출력 $15.00이니까 mini는 풀 모델 대비 입력 기준 약 3.3배 저렴합니다.
(출처: OpenAI API 가격 페이지, 2026.03.17 기준)
| 모델 | 입력 (1M 토큰) | 캐시 입력 | 출력 (1M 토큰) |
|---|---|---|---|
| GPT-5.4 | $2.50 | $0.25 | $15.00 |
| GPT-5.4 mini ★ | $0.75 | $0.075 | $4.50 |
| GPT-5.4 nano | $0.20 | $0.02 | $1.25 |
| Claude Sonnet 4.6 | $3.00 | — | $15.00 |
| Claude Haiku 4.5 | $1.00 | — | $5.00 |
| Gemini 3.1 Flash-Lite | $0.25 | — | $1.50 |
출처: OpenAI API 가격 페이지 및 simonwillison.net (2026.03.17 기준) / GPT-5.4 nano는 Gemini 3.1 Flash-Lite보다 저렴합니다.
Claude Haiku 4.5 대비 입력 기준으로 GPT-5.4 mini가 $0.25 저렴합니다. 같은 소형 모델 경쟁에서 가격 경쟁력은 있는 편입니다. Gemini 3.1 Flash-Lite($0.25)보다는 3배 비싸지만, 코딩·에이전트 성능 차이를 감안하면 단순 비교는 어렵습니다.
실비용 계산을 직접 해보면, 매월 입력 1억 토큰, 출력 3천만 토큰을 처리하는 워크플로라면 GPT-5.4 mini 기준 입력 $75 + 출력 $135 = 약 월 $210입니다. 같은 조건으로 GPT-5.4 풀 모델을 쓰면 입력 $250 + 출력 $450 = 약 월 $700가 됩니다. 월 $490 차이입니다.
Codex에서 mini를 30% 쿼터로 쓰는 구조
💡 “30% 쿼터”라는 숫자는 단순 할인 개념이 아니라, 에이전트 설계 패턴 자체를 바꾸는 레버입니다. 공식 발표 문서와 Codex 서브에이전트 구조를 같이 보니 이 점이 명확해졌습니다.
OpenAI 공식 발표에 이렇게 나옵니다. “Codex에서 GPT-5.4 mini는 GPT-5.4 쿼터의 30%만 사용합니다.” 풀 모델을 1회 쓸 비용으로 mini를 3번 이상 쓸 수 있다는 뜻입니다. Codex에서 GPT-5.4가 전체 계획을 세우고, 세부 작업(코드베이스 검색, 대형 파일 리뷰, 문서 처리 등)은 mini 서브에이전트에 병렬로 분배하는 구조가 가능해졌습니다.
(출처: OpenAI 공식 발표, 2026.03.17)
실제로 이 구조를 쓰면 어떤 이점이 있냐면, 메인 모델은 판단과 조율을 맡고 실행은 mini가 병렬로 처리하니 전체 완료 시간이 줄어듭니다. 기존에 풀 모델 하나로 순차 처리하던 걸 mini 여러 개가 동시에 처리하는 방식으로 바뀌는 겁니다. 비용과 속도를 동시에 잡는 구조입니다.
솔직히 말하면, 이 구조가 개인 개발자보다 기업 개발팀에 더 의미가 있습니다. 개인이 Codex를 쓰면 어차피 순차 작업이 대부분이고, 에이전트 파이프라인을 직접 설계하는 경우는 드뭅니다. 하지만 여러 에이전트를 조율하는 구조를 만드는 팀이라면, 이 30% 쿼터 설계가 아키텍처 결정에 실질적인 영향을 줍니다.
결국 어느 상황에 쓰면 맞을까
코딩·툴 호출·컴퓨터 사용처럼 작업 범위가 명확하게 정해진 경우라면 GPT-5.4 mini가 맞습니다. 수치 차이가 좁고, 속도는 GPT-5 mini 대비 2배 이상 빠릅니다. API 비용도 플래그십의 3분의 1 수준입니다. 반복 실행이 많은 워크플로라면 비용 절감 효과가 빠르게 체감됩니다.
✅ GPT-5.4 mini가 맞는 상황
- 코드 생성, 버그 수정, 코드베이스 내 특정 파일 검색
- 스크린샷 분석이나 UI 조작이 필요한 컴퓨터 사용 작업
- 툴 호출 기반 에이전트 파이프라인의 실행 단계
- 분류, 데이터 추출, 순위 결정처럼 범위가 좁은 반복 작업
- Free 티어에서 Thinking 기능을 통해 추론 능력이 필요할 때
❌ 이 상황에서는 mini로 대체하면 안 됩니다
- 128K 토큰을 넘는 대형 문서 전체를 정확하게 참조해야 하는 작업
- 수백 개 파일이 얽힌 코드베이스 전체를 동시에 이해해야 하는 리팩토링
- 최종 판단과 계획이 필요한 오케스트레이터 역할
(출처: OpenAI 공식 발표, 2026.03.17)
Q&A — 자주 묻는 것들
마치며 — 총평
그런데 장문 처리 수치는 직접 확인해두는 게 좋습니다. MRCR v2 128K-256K 구간에서 33.6%라는 수치는, 긴 문서를 다루는 작업에서 mini를 믿고 넣었다가 예상 밖의 결과를 받을 수 있다는 신호입니다. 400K 컨텍스트를 지원한다는 말과, 400K 전체에서 정확하게 작동한다는 말은 다릅니다.
Free 티어에서도 Thinking 기능을 통해 GPT-5.4 mini에 접근할 수 있다는 건 실질적인 변화입니다. 다만 모델 선택기에서 직접 고를 수 없다는 점, 한도 도달 후 자동 전환되는 방식이라는 점은 미리 알아두는 게 좋습니다. 기대했던 것과 방식이 달랐던 부분입니다.
📚 본 포스팅 참고 자료
본 포스팅은 2026년 03월 22일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 공식 수치는 OpenAI 발표 시점 기준이며, API 가격·모델명·기능은 언제든 바뀔 수 있습니다. 중요한 결정 전에 platform.openai.com에서 최신 정보를 직접 확인하세요.


댓글 남기기