gpt-5.4-mini-2026-03-17
⚠ 출시 당일 가격 3배 인상
GPT-5.4 mini, 빠르다는 말이 전부가 아닙니다
OpenAI가 2026년 3월 17일 출시한 GPT-5.4 mini와 nano. “소형 모델인데 플래그십 수준”이라는 발표가 맞는 부분도 있지만, 공식 벤치마크를 직접 들여다보면 조용히 숨겨진 수치들이 있습니다. 특히 긴 컨텍스트 성능과 가격 논란은 지금 이 모델을 선택하려는 분들이 반드시 먼저 확인해야 할 부분입니다.
출시 당일, 가격표가 바뀌었습니다
GPT-5.4 mini가 공개된 2026년 3월 17일, Reddit 커뮤니티에서는 독특한 목격담이 올라왔습니다. 출시 직전까지 입력 $0.25/100만 토큰, 출력 $2/100만 토큰으로 알려졌던 가격이, 정식 발표 시점에는 입력 $0.75/100만 토큰, 출력 $4.50/100만 토큰으로 공개됐습니다. (출처: r/codex, 2026.03.17 / OpenAI API 공식 가격 페이지)
입력 기준으로 3배, 출력 기준으로 약 2.25배 올랐습니다. 사전 유출됐던 정보와 실제 가격 사이의 간극이 이렇게 컸던 경우는 드뭅니다. OpenAI 측이 별도 이유를 공개하지 않은 부분입니다.
💡 공식 가격과 유출 가격을 같이 놓고 보면, 마케팅과 정책 사이에서 꽤 큰 조정이 있었다는 게 보입니다. 실제 API 예산을 짤 때 유출 정보 의존은 금물입니다.
최종 공식 가격은 GPT-5 mini($0.25/$2) 대비 3배 비싸지만, GPT-5.4 풀버전($2.50/$15)의 약 30% 수준입니다. (출처: OpenAI API 공식 가격 페이지)
“플래그십 수준”이 무너지는 구간이 있습니다
GPT-5.4 mini를 “거의 플래그십 수준”이라고 말할 수 있는 영역이 분명히 있습니다. 코딩 벤치마크인 SWE-Bench Pro에서 54.4%를 기록해 GPT-5.4(57.7%)와 불과 3.3%p 차이입니다. (출처: OpenAI 공식 발표, 2026.03.17) 일반 코딩 작업에서는 체감 차이가 크지 않습니다.
그런데 긴 컨텍스트 작업에 들어가면 이야기가 완전히 달라집니다. OpenAI가 공개한 MRCR v2 벤치마크(8-needle 테스트)를 보면, 128K~256K 구간에서 GPT-5.4 mini는 33.6%를 기록했습니다. GPT-5.4 풀버전이 같은 구간에서 79.3%인 것과 비교하면, 성능이 절반 이하로 떨어집니다. 단순 속도나 비용 문제가 아닙니다. (출처: OpenAI 공식 발표, 2026.03.17)
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| SWE-Bench Pro | 57.7% | 54.4% | 45.7% |
| MRCR v2 128K~256K | 79.3% | 33.6% | 19.4% |
| OSWorld-Verified | 75.0% | 72.1% | 42.0% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 38.2% |
※ reasoning_effort xhigh 기준 / 출처: OpenAI 공식 발표 (2026.03.17)
MRCR 128K~256K 구간에서 33.6% vs 79.3%. 두 배 넘는 차이입니다. 긴 문서 분석이나 대규모 코드베이스 리뷰에 mini를 쓰려 한다면, 이 수치를 먼저 봐야 합니다.
nano는 mini의 하위 호환이 아닙니다
GPT-5.4 nano는 mini보다 싼 대신 더 낮은 성능이라고 단순하게 생각하면 손해 보는 케이스가 생깁니다. 실제로 nano는 컴퓨터 사용(Computer Use) 과제에서 39.0%(OSWorld-Verified)를 기록했는데, 이 숫자는 이전 세대인 GPT-5 mini(42.0%)보다도 낮습니다. nano를 UI 자동화나 컴퓨터 제어 에이전트에 연결하면 기대 이하의 결과가 나올 가능성이 높습니다. (출처: OpenAI 공식 발표, 2026.03.17)
💡 공식 벤치마크를 구조별로 비교해 보니, nano와 mini가 잘하는 영역이 완전히 다릅니다. nano는 범용 서브에이전트나 대량 분류·라우팅 작업에 적합하고, 컴퓨터 조작이 들어가는 과제는 mini 이상이 필요합니다.
반면 GPQA Diamond(과학 추론)에서는 nano가 82.8%로, 이전 세대 mini의 81.6%를 앞섭니다. 텍스트 기반 추론과 구조화된 출력 작업에서는 nano가 가성비 우위를 점합니다. 가격은 입력 $0.20/100만 토큰, 출력 $1.25/100만 토큰으로 mini의 약 27% 수준입니다. (출처: OpenAI API 공식 가격 페이지)
Codex에서는 실제로 비용이 줄어듭니다
Codex 앱, CLI, IDE 확장에서 GPT-5.4 mini를 쓰면 GPT-5.4 쿼터의 30%만 소모됩니다. (출처: OpenAI 공식 발표, 2026.03.17) 즉, 같은 Codex 플랜에서 GPT-5.4 대신 mini를 사용하면 동일 예산으로 약 3.3배 더 많은 작업을 처리할 수 있습니다.
SWE-Bench Pro 기준 mini(54.4%)와 풀버전(57.7%)의 차이는 3.3%p입니다. 반복적인 단순 코드 수정·리팩터링·테스트 자동화처럼 정확도보다 처리량이 중요한 작업에서는 mini가 훨씬 합리적인 선택입니다. 솔직히 말하면, 코딩 실무의 60~70%는 이런 단순 반복 작업입니다.
다만 새로운 기능 설계나 아키텍처 결정처럼 창의적 추론이 필요한 작업에는 Terminal-Bench 기준 격차(75.1% vs 60.0%)가 체감에 나타납니다. 작업 유형에 따라 모델을 나눠 쓰는 것이 현실적인 전략입니다.
경쟁 소형 모델과 어떻게 다른가
GPT-5.4 nano($0.20/$1.25)는 가격 기준으로 Claude Haiku 4.5($1.00/$5.00)를 크게 밑돕니다. 가격만 보면 nano가 압도적이지만, OSWorld 컴퓨터 사용 비교에서는 Claude Haiku 4.5(표준 OSWorld 50.7%)가 nano(OSWorld-Verified 39.0%)보다 높은 수치를 기록했습니다. 두 벤치마크가 다른 기준이라 직접 비교가 까다롭지만, 차이가 12%p에 달하기 때문에 경시하기 어렵습니다. (출처: DataCamp, 2026.03.17)
GPQA Diamond와 τ2-bench Telecom에서는 GPT-5.4 nano가 각각 9.8%p, 9.5%p 앞서며 텍스트 추론과 도구 호출 정확도에서 우위를 보입니다. 컴퓨터 자동화 에이전트가 아닌 텍스트 처리·분류·라우팅 기반 서비스를 개발한다면 nano의 가성비가 돋보입니다.
💡 다른 글들이 mini와 풀버전만 비교하는 사이, nano와 경쟁 소형 모델 간의 영역별 교차 비교를 해 보면 “어느 작업에 nano를 쓰면 안 되는지”가 보입니다. 범용적으로 쓰면 실망할 수 있는 모델입니다.
ChatGPT에서 어떻게 만날 수 있나
ChatGPT 앱에서는 Free와 Go 요금제 사용자가 Thinking 기능을 켤 때 기본값으로 GPT-5.4 mini가 적용됩니다. Plus·Business 사용자가 GPT-5.4 Thinking 주간 한도(3,000개)에 도달하면 자동으로 mini로 전환되는 구조입니다. (출처: OpenAI Help Center, 2026.03.18)
한 가지 특이한 점이 있습니다. Instant 모드(GPT-5.3)가 자동으로 GPT-5.4 Thinking으로 전환할 때는 주간 한도를 소비하지 않습니다. 반면 사용자가 직접 Thinking을 선택하면 한도가 줄어듭니다. 메뉴를 건드리지 않고 Instant 상태로 두면 GPT-5.4 수준의 추론을 한도 걱정 없이 받을 수 있습니다.
GPT-5.4 nano는 ChatGPT에 직접 노출되지 않고 API 전용으로만 제공됩니다. 일반 ChatGPT 사용자는 nano를 의식할 필요가 없으며, API를 활용하는 개발자나 기업이 주된 대상입니다.
Q&A 5가지
Q1. GPT-5.4 mini는 무료 ChatGPT에서도 쓸 수 있나요?
Free 요금제에서 Thinking(+) 메뉴를 열면 GPT-5.4 mini가 기본값으로 적용됩니다. 단, Free는 5시간마다 GPT-5.3 기준 10개 메시지 한도가 있고, 한도 초과 시 자동으로 mini로 내려갑니다. 즉, 무료 사용자가 Thinking을 직접 켜지 않아도 한도 초과 상황에서 mini가 작동합니다. (출처: OpenAI Help Center)
Q2. GPT-5.4 mini와 nano, 무엇을 선택해야 하나요?
컴퓨터 자동화·UI 제어·멀티스텝 에이전트 과제라면 mini(OSWorld-Verified 72.1%)를 선택해야 합니다. 반면 텍스트 분류·데이터 라우팅·대량 API 호출처럼 추론보다 처리량과 비용이 중요한 경우라면 nano($0.20/$1.25)가 적합합니다. nano는 ChatGPT에는 없고 API 전용입니다.
Q3. 긴 문서를 다룰 때 mini 대신 뭘 써야 하나요?
128K 토큰 이상 긴 컨텍스트 작업에서 mini의 MRCR v2 정확도는 33.6%까지 하락합니다. 이런 용도에는 GPT-5.4 풀버전(79.3%)을 쓰거나, 긴 문서를 구간별로 분할해 mini에 순차 처리하는 방식이 현실적입니다. 비용은 더 들더라도 결과물 품질이 중요한 법률 문서·기술 명세서 분석이라면 풀버전을 권장합니다.
Q4. Codex에서 mini를 쓰면 쿼터가 실제로 얼마나 아껴지나요?
Codex에서 mini는 GPT-5.4 쿼터의 30%만 사용합니다. 월 Codex Pro 플랜 쿼터 100단위가 있다면, GPT-5.4로는 100개 작업을 처리하지만 mini로는 약 333개 작업까지 처리할 수 있습니다. 단순 버그 수정·리팩터링·테스트 작성 등에는 충분한 성능입니다. (출처: OpenAI 공식 발표, 2026.03.17)
Q5. GPT-5 Thinking mini는 언제 지원이 종료되나요?
GPT-5.4 mini 출시에 따라 기존 GPT-5 Thinking mini는 2026년 4월 18일(KST)에 지원이 종료될 예정입니다. Enterprise/Edu 플랜의 GPT-4o 맞춤형 GPT 지원도 2026년 4월 3일로 완전 종료됩니다. 기존 커스텀 GPT를 운영 중인 기업 담당자는 마이그레이션 일정을 지금 확인해야 합니다. (출처: OpenAI Help Center)
마치며
GPT-5.4 mini는 “소형 모델의 한계”를 많이 좁힌 건 사실입니다. SWE-Bench Pro에서 54.4%는 불과 6개월 전 플래그십 수준입니다. 코딩, 도구 호출, 시각 이해 전반에서 이전 세대 mini를 확실히 앞섭니다.
다만 긴 컨텍스트에서의 급격한 성능 하락과 출시 당일의 가격 인상, 그리고 nano와의 영역 구분 없이 무조건 mini를 선택하는 습관은 기대와 결과 사이의 간극을 만들 수 있습니다. 개인적으로는 Codex에서 단순 반복 작업에 mini를 기본으로 두고, 복잡한 설계 작업은 풀버전으로 전환하는 이원화 전략이 현재로선 가장 합리적이라고 생각합니다.
OpenAI가 공식 발표문에서 직접 말했듯이, 마지막 몇 퍼센트의 정확도를 얻기 위해 드는 비용은 기하급수적으로 늘어납니다. mini와 nano는 그 “마지막 몇 퍼센트”를 포기하고 나머지 가치를 얻는 선택입니다. 어떤 과제에서 그 포기가 용납되는지 먼저 파악하고 쓰는 것이 핵심입니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — GPT-5.4 mini 및 nano 출시 (2026.03.17)
- OpenAI API 공식 가격 페이지 — developers.openai.com/api/docs/pricing
- OpenAI Help Center — ChatGPT의 GPT-5.3 및 GPT-5.4 (2026.03.18)
- DataCamp — GPT-5.4 mini and nano: Benchmarks, Access, and Reactions (2026.03.17)
본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치는 OpenAI 공식 문서(gpt-5.4-mini-2026-03-17 기준) 및 공개 벤치마크를 바탕으로 작성됐으며, 추정치는 별도로 표기했습니다. 최신 정보는 반드시 OpenAI 공식 채널에서 확인하시기 바랍니다.











댓글 남기기