API 가격은 GPT-5.4의 딱 30%입니다. 속도는 2배 이상 빠릅니다. 코딩 벤치마크(SWE-Bench Pro)에서 GPT-5.4와 불과 3.3%p 차이입니다. 여기까지만 보면 “이거 쓰면 되겠다”는 결론이 납니다. 그런데 같은 공식 문서 안에 조용히 적혀 있는 숫자가 있습니다. 롱 컨텍스트 벤치마크, 거기서 격차는 최대 53%p까지 벌어집니다.
API 요금은 입력 $0.75/1M 토큰, 출력 $4.50/1M 토큰입니다. 플래그십인 GPT-5.4의 입력 $2.50, 출력 $15.00과 비교하면 각각 30%, 30% 수준입니다. 가격 차이가 확연합니다. 같은 예산으로 3배 넘게 쓸 수 있다는 계산이 나옵니다. (출처: OpenAI API Pricing 페이지, 2026.03.17)
컨텍스트 윈도우는 400K 토큰이고, 텍스트·이미지 입력, 도구 사용, 함수 호출, 웹 검색, 파일 검색, 컴퓨터 사용, 스킬 등 주요 기능을 전부 지원합니다. 스펙만 보면 플래그십과 기능 차이가 거의 없습니다.
요금제별로 mini 쓰는 방식이 다릅니다
| 플랜 | GPT-5.4 mini 제공 방식 | 비고 |
|---|---|---|
| Free | + 메뉴 Thinking 기능의 기본 모델 | GPT-5.3 5시간당 10회 한도 초과 시 mini 자동 전환 |
| Go | + 메뉴 Thinking 기능의 기본 모델 | 5시간당 10회 Thinking 가능 |
| Plus | GPT-5.4 Thinking 주당 3,000회 소진 시 폴백 | 모델 선택기에는 표시 안 됨 |
| Business/Pro | 폴백 또는 Auto 라우팅 기본값 설정 가능 | Enterprise는 기본값 변경 옵션 유지 |
| API | 직접 호출 가능, $0.75/$4.50 (입력/출력) | 400K 컨텍스트 윈도우 지원 |
💡 공식 문서를 플랜별로 나란히 놓고 보니 이런 흐름이 보였습니다 — GPT-5.3 Instant에서 GPT-5.4 Thinking으로 자동 전환되는 것은 주당 3,000회 Thinking 한도에 카운트되지 않습니다. (출처: OpenAI Help Center, 2026.03.25 기준) Plus 플랜 기준으로는, Instant 모드에서 자동으로 Thinking이 작동할 때 mini가 폴백 역할을 하는 구조가 사실상 무제한 추론 버퍼처럼 기능합니다. 한도 걱정 없이 쓸 수 있는 범위가 생각보다 넓습니다.
결론적으로 GPT-5.4 mini를 ChatGPT에서 선택지로 직접 고를 수는 없습니다. 모델 선택기에는 표시되지 않고, 한도 소진 또는 자동 전환 맥락에서만 작동합니다. API에서는 직접 호출 가능합니다.
공식 벤치마크, 좋아 보이는 숫자 뒤에 있는 것
OpenAI가 공개한 벤치마크에서 GPT-5.4 mini는 꽤 인상적인 숫자를 냅니다. SWE-Bench Pro(코딩) 54.4%, GPQA Diamond(추론) 88.0%, OSWorld-Verified(컴퓨터 조작) 72.1%. 플래그십 GPT-5.4와 비교하면 각각 3.3%p, 5.0%p, 2.9%p 차이입니다. (출처: OpenAI 공식 블로그, 2026.03.17) 이 정도면 “거의 비슷하다”는 말이 충분히 나옵니다.
여기서 한 가지 짚고 넘어가야 할 게 있습니다. OpenAI가 제시한 성능-지연시간 그래프는 Y축이 35%에서 시작합니다. 0부터 시작하면 시각적으로 모델 간 격차가 훨씬 좁아 보일 텐데, 35%에서 시작하면 작은 차이가 크게 보입니다. (출처: DataCamp, 2026.03.17) 또한 이 지연 시간 수치는 실제 프로덕션 수치가 아닌 모델 시뮬레이션 추정치입니다. 오차 범위가 얼마인지는 공식 문서에서 별도로 밝히지 않았습니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | 격차 |
|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | ▽ 3.3%p |
| Terminal-Bench 2.0 (터미널) | 75.1% | 60.0% | ▽ 15.1%p |
| GPQA Diamond (추론) | 93.0% | 88.0% | ▽ 5.0%p |
| Toolathlon (도구 호출) | 54.6% | 42.9% | ▽ 11.7%p |
| OSWorld-Verified (컴퓨터 조작) | 75.0% | 72.1% | ▽ 2.9%p |
출처: OpenAI 공식 블로그 (2026.03.17), xhigh reasoning_effort 기준
롱 컨텍스트에서 생기는 조용한 격차
벤치마크 테이블에서 유독 눈에 띄지 않는 항목이 하나 있습니다. 롱 컨텍스트 성능입니다. OpenAI 공식 발표 페이지에 함께 실려 있지만, 헤드라인을 장식하는 숫자는 아니었습니다. 직접 확인해보니 이야기가 달라집니다.
⚠️ OpenAI MRCR v2 (8-needle, 128K~256K 구간) 기준
격차: 45.7%p
출처: OpenAI 공식 블로그 (2026.03.17)
64K~128K 구간에서도 GPT-5.4가 86.0%인데 mini는 47.7%입니다. 플래그십 대비 38.3%p 낮습니다. 이게 실제로 어떤 의미인지 계산해보면 이렇습니다. 100개의 문서 중 맞게 처리한 게 GPT-5.4는 86개, mini는 48개 수준입니다. 절반 가까이 틀릴 수 있다는 뜻입니다.
400K 컨텍스트 윈도우를 지원한다는 것과, 긴 컨텍스트에서 정확하게 처리한다는 것은 전혀 다른 이야기입니다. 지원 범위가 곧 성능 범위는 아닙니다. 대규모 코드베이스 전체를 넣고 분석하거나, 긴 법무·연구 문서를 한꺼번에 처리하는 용도라면 mini보다 플래그십이 맞습니다.
💡 공식 발표 데이터와 실제 사용 조건을 같이 놓고 보니 이런 차이가 보였습니다 — mini의 400K 컨텍스트는 짧은 작업을 병렬로 많이 처리하는 설계에 맞춰져 있습니다. 하나의 긴 문서를 통째로 깊게 이해해야 하는 단일 작업에는 애당초 설계 목적이 다릅니다.
Codex에서는 mini가 오히려 유리한 이유
Codex 환경에서는 mini의 포지션이 독특합니다. OpenAI 공식 발표에 따르면, Codex에서 GPT-5.4 mini는 GPT-5.4 쿼터의 30%만 소비합니다. (출처: OpenAI 공식 블로그, 2026.03.17) 수치로 풀면 이렇습니다.
📊 Codex 쿼터 소비 비교
GPT-5.4로 10회 작업 = 쿼터 10 소비
GPT-5.4 mini로 10회 작업 = 쿼터 3 소비
→ 같은 쿼터로 약 3.3배 더 많은 작업 처리 가능
OpenAI는 Codex에서 GPT-5.4를 “플래너·조율자·최종 판단자”로, mini를 “서브에이전트 실행자”로 사용하는 구조를 권장합니다. 코드베이스 탐색, 대형 파일 리뷰, 지원 문서 처리 같은 반복적이고 병렬 처리 가능한 작업은 mini에 위임하고, 최종 판단이나 복잡한 설계는 플래그십이 맡는 방식입니다.
실제로 Hebia(금융·법무 문서 분석 도구) 측은 “특정 워크플로우에서 mini가 플래그십과 동등하거나 더 나은 인용 정확도를 보였다”고 밝혔습니다. (출처: OpenAI 공식 블로그, 2026.03.17) 이 결과는 “큰 모델이 항상 낫다”는 전제를 다시 생각하게 만듭니다. 특정 반복 작업에서는 mini가 더 안정적일 수 있습니다.
mini vs nano vs 플래그십, 언제 뭘 쓸까
이미 나와 있는 비교표가 많지만, 실제 비용까지 계산한 정리는 거의 없습니다. API 요금 기준으로 직접 따져봤습니다.
| 모델 | 입력 (1M) | 출력 (1M) | 맞는 작업 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 복잡한 추론, 긴 컨텍스트 분석, 터미널 에이전트 |
| GPT-5.4 mini | $0.75 | $4.50 | 코딩 어시스턴트, 서브에이전트, 컴퓨터 사용, 멀티모달 |
| GPT-5.4 nano | $0.20 | $1.25 | 분류, 데이터 추출, 대량 처리, 단순 서브에이전트 |
출처: OpenAI API Pricing (2026.03.17 기준), nano는 API 전용, ChatGPT 미지원
Claude Opus 4.6의 출력 요금은 $25/1M입니다. GPT-5.4 mini($4.50)는 그 18% 수준입니다. 같은 예산으로 약 5.5배 더 많은 출력을 뽑을 수 있습니다. 물론 두 모델의 특성이 다르기 때문에 단순 가격 비교만으로는 판단할 수 없지만, 비용 측면에서 mini의 포지션은 명확합니다.
솔직히 말하면, mini를 기본 모델로 쓰고 롱 컨텍스트·터미널 작업이나 정밀도 요구가 높은 경우에만 플래그십으로 라우팅하는 구조가 현재 시점에서 가장 현실적인 선택입니다. 무조건 플래그십을 쓰는 것도, 무조건 mini만 쓰는 것도 설계가 아닙니다.
Q&A
마치며
다만 “싸고 빠르다 = 다 된다”는 공식은 성립하지 않습니다. 긴 컨텍스트에서의 성능 하락은 공식 벤치마크에 그대로 나와 있습니다. 터미널 에이전트 작업에서도 플래그십 대비 15%p 이상 차이가 납니다. 이 숫자는 작지 않습니다.
써보니 가장 현실적인 접근은 작업 유형별로 모델을 나눠 쓰는 겁니다. 반복적이고 병렬 처리 가능한 작업에는 mini, 긴 컨텍스트·복잡한 추론·터미널 작업에는 플래그십. Codex 환경이라면 mini를 서브에이전트로 적극 활용하는 구조가 현재 시점에서 가장 합리적인 선택입니다.
본 포스팅 참고 자료
-
OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano
https://openai.com/index/introducing-gpt-5-4-mini-and-nano/ -
OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (모델 한도·플랜별 안내)
https://help.openai.com/en/articles/11909943 -
OpenAI Help Center — Model Release Notes (공식 릴리스 노트)
https://help.openai.com/ko-kr/articles/9624314-model-release-notes -
DataCamp — GPT-5.4 mini and nano: Benchmarks, Access, and Reactions
https://www.datacamp.com/blog/gpt-5-4-mini-nano
본 포스팅은 2026년 3월 26일 기준으로 작성됐습니다. OpenAI의 서비스 정책·UI·모델 사양·요금은 업데이트로 언제든 변경될 수 있습니다. 최신 정보는 OpenAI 공식 홈페이지 및 Help Center에서 직접 확인하시기 바랍니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.











댓글 남기기