GPT-5.4 mini, 싸다고 다 되는 건 아닙니다

Published on

in

GPT-5.4 mini, 싸다고 다 되는 건 아닙니다

2026.03.18 출시 기준 / GPT-5.4 mini

API 가격은 GPT-5.4의 딱 30%입니다. 속도는 2배 이상 빠릅니다. 코딩 벤치마크(SWE-Bench Pro)에서 GPT-5.4와 불과 3.3%p 차이입니다. 여기까지만 보면 “이거 쓰면 되겠다”는 결론이 납니다. 그런데 같은 공식 문서 안에 조용히 적혀 있는 숫자가 있습니다. 롱 컨텍스트 벤치마크, 거기서 격차는 최대 53%p까지 벌어집니다.

💰 API 입력 $0.75/1M 토큰
🪟 컨텍스트 400K 토큰
⚡ GPT-5 mini 대비 2배+ 빠름
🆓 Free/Go 플랜 Thinking 기본값

API 요금은 입력 $0.75/1M 토큰, 출력 $4.50/1M 토큰입니다. 플래그십인 GPT-5.4의 입력 $2.50, 출력 $15.00과 비교하면 각각 30%, 30% 수준입니다. 가격 차이가 확연합니다. 같은 예산으로 3배 넘게 쓸 수 있다는 계산이 나옵니다. (출처: OpenAI API Pricing 페이지, 2026.03.17)

컨텍스트 윈도우는 400K 토큰이고, 텍스트·이미지 입력, 도구 사용, 함수 호출, 웹 검색, 파일 검색, 컴퓨터 사용, 스킬 등 주요 기능을 전부 지원합니다. 스펙만 보면 플래그십과 기능 차이가 거의 없습니다.

▲ 목차로 돌아가기

요금제별로 mini 쓰는 방식이 다릅니다

플랜 GPT-5.4 mini 제공 방식 비고
Free + 메뉴 Thinking 기능의 기본 모델 GPT-5.3 5시간당 10회 한도 초과 시 mini 자동 전환
Go + 메뉴 Thinking 기능의 기본 모델 5시간당 10회 Thinking 가능
Plus GPT-5.4 Thinking 주당 3,000회 소진 시 폴백 모델 선택기에는 표시 안 됨
Business/Pro 폴백 또는 Auto 라우팅 기본값 설정 가능 Enterprise는 기본값 변경 옵션 유지
API 직접 호출 가능, $0.75/$4.50 (입력/출력) 400K 컨텍스트 윈도우 지원

💡 공식 문서를 플랜별로 나란히 놓고 보니 이런 흐름이 보였습니다 — GPT-5.3 Instant에서 GPT-5.4 Thinking으로 자동 전환되는 것은 주당 3,000회 Thinking 한도에 카운트되지 않습니다. (출처: OpenAI Help Center, 2026.03.25 기준) Plus 플랜 기준으로는, Instant 모드에서 자동으로 Thinking이 작동할 때 mini가 폴백 역할을 하는 구조가 사실상 무제한 추론 버퍼처럼 기능합니다. 한도 걱정 없이 쓸 수 있는 범위가 생각보다 넓습니다.

결론적으로 GPT-5.4 mini를 ChatGPT에서 선택지로 직접 고를 수는 없습니다. 모델 선택기에는 표시되지 않고, 한도 소진 또는 자동 전환 맥락에서만 작동합니다. API에서는 직접 호출 가능합니다.

▲ 목차로 돌아가기

공식 벤치마크, 좋아 보이는 숫자 뒤에 있는 것

OpenAI가 공개한 벤치마크에서 GPT-5.4 mini는 꽤 인상적인 숫자를 냅니다. SWE-Bench Pro(코딩) 54.4%, GPQA Diamond(추론) 88.0%, OSWorld-Verified(컴퓨터 조작) 72.1%. 플래그십 GPT-5.4와 비교하면 각각 3.3%p, 5.0%p, 2.9%p 차이입니다. (출처: OpenAI 공식 블로그, 2026.03.17) 이 정도면 “거의 비슷하다”는 말이 충분히 나옵니다.

여기서 한 가지 짚고 넘어가야 할 게 있습니다. OpenAI가 제시한 성능-지연시간 그래프는 Y축이 35%에서 시작합니다. 0부터 시작하면 시각적으로 모델 간 격차가 훨씬 좁아 보일 텐데, 35%에서 시작하면 작은 차이가 크게 보입니다. (출처: DataCamp, 2026.03.17) 또한 이 지연 시간 수치는 실제 프로덕션 수치가 아닌 모델 시뮬레이션 추정치입니다. 오차 범위가 얼마인지는 공식 문서에서 별도로 밝히지 않았습니다.

벤치마크 GPT-5.4 GPT-5.4 mini 격차
SWE-Bench Pro (코딩) 57.7% 54.4% ▽ 3.3%p
Terminal-Bench 2.0 (터미널) 75.1% 60.0% ▽ 15.1%p
GPQA Diamond (추론) 93.0% 88.0% ▽ 5.0%p
Toolathlon (도구 호출) 54.6% 42.9% ▽ 11.7%p
OSWorld-Verified (컴퓨터 조작) 75.0% 72.1% ▽ 2.9%p

출처: OpenAI 공식 블로그 (2026.03.17), xhigh reasoning_effort 기준

▲ 목차로 돌아가기

롱 컨텍스트에서 생기는 조용한 격차

벤치마크 테이블에서 유독 눈에 띄지 않는 항목이 하나 있습니다. 롱 컨텍스트 성능입니다. OpenAI 공식 발표 페이지에 함께 실려 있지만, 헤드라인을 장식하는 숫자는 아니었습니다. 직접 확인해보니 이야기가 달라집니다.

⚠️ OpenAI MRCR v2 (8-needle, 128K~256K 구간) 기준

격차: 45.7%p

출처: OpenAI 공식 블로그 (2026.03.17)

64K~128K 구간에서도 GPT-5.4가 86.0%인데 mini는 47.7%입니다. 플래그십 대비 38.3%p 낮습니다. 이게 실제로 어떤 의미인지 계산해보면 이렇습니다. 100개의 문서 중 맞게 처리한 게 GPT-5.4는 86개, mini는 48개 수준입니다. 절반 가까이 틀릴 수 있다는 뜻입니다.

400K 컨텍스트 윈도우를 지원한다는 것과, 긴 컨텍스트에서 정확하게 처리한다는 것은 전혀 다른 이야기입니다. 지원 범위가 곧 성능 범위는 아닙니다. 대규모 코드베이스 전체를 넣고 분석하거나, 긴 법무·연구 문서를 한꺼번에 처리하는 용도라면 mini보다 플래그십이 맞습니다.

💡 공식 발표 데이터와 실제 사용 조건을 같이 놓고 보니 이런 차이가 보였습니다 — mini의 400K 컨텍스트는 짧은 작업을 병렬로 많이 처리하는 설계에 맞춰져 있습니다. 하나의 긴 문서를 통째로 깊게 이해해야 하는 단일 작업에는 애당초 설계 목적이 다릅니다.

▲ 목차로 돌아가기

Codex에서는 mini가 오히려 유리한 이유

Codex 환경에서는 mini의 포지션이 독특합니다. OpenAI 공식 발표에 따르면, Codex에서 GPT-5.4 mini는 GPT-5.4 쿼터의 30%만 소비합니다. (출처: OpenAI 공식 블로그, 2026.03.17) 수치로 풀면 이렇습니다.

📊 Codex 쿼터 소비 비교

GPT-5.4로 10회 작업 = 쿼터 10 소비

GPT-5.4 mini로 10회 작업 = 쿼터 3 소비

→ 같은 쿼터로 약 3.3배 더 많은 작업 처리 가능

OpenAI는 Codex에서 GPT-5.4를 “플래너·조율자·최종 판단자”로, mini를 “서브에이전트 실행자”로 사용하는 구조를 권장합니다. 코드베이스 탐색, 대형 파일 리뷰, 지원 문서 처리 같은 반복적이고 병렬 처리 가능한 작업은 mini에 위임하고, 최종 판단이나 복잡한 설계는 플래그십이 맡는 방식입니다.

실제로 Hebia(금융·법무 문서 분석 도구) 측은 “특정 워크플로우에서 mini가 플래그십과 동등하거나 더 나은 인용 정확도를 보였다”고 밝혔습니다. (출처: OpenAI 공식 블로그, 2026.03.17) 이 결과는 “큰 모델이 항상 낫다”는 전제를 다시 생각하게 만듭니다. 특정 반복 작업에서는 mini가 더 안정적일 수 있습니다.

▲ 목차로 돌아가기

mini vs nano vs 플래그십, 언제 뭘 쓸까

이미 나와 있는 비교표가 많지만, 실제 비용까지 계산한 정리는 거의 없습니다. API 요금 기준으로 직접 따져봤습니다.

모델 입력 (1M) 출력 (1M) 맞는 작업
GPT-5.4 $2.50 $15.00 복잡한 추론, 긴 컨텍스트 분석, 터미널 에이전트
GPT-5.4 mini $0.75 $4.50 코딩 어시스턴트, 서브에이전트, 컴퓨터 사용, 멀티모달
GPT-5.4 nano $0.20 $1.25 분류, 데이터 추출, 대량 처리, 단순 서브에이전트

출처: OpenAI API Pricing (2026.03.17 기준), nano는 API 전용, ChatGPT 미지원

Claude Opus 4.6의 출력 요금은 $25/1M입니다. GPT-5.4 mini($4.50)는 그 18% 수준입니다. 같은 예산으로 약 5.5배 더 많은 출력을 뽑을 수 있습니다. 물론 두 모델의 특성이 다르기 때문에 단순 가격 비교만으로는 판단할 수 없지만, 비용 측면에서 mini의 포지션은 명확합니다.

솔직히 말하면, mini를 기본 모델로 쓰고 롱 컨텍스트·터미널 작업이나 정밀도 요구가 높은 경우에만 플래그십으로 라우팅하는 구조가 현재 시점에서 가장 현실적인 선택입니다. 무조건 플래그십을 쓰는 것도, 무조건 mini만 쓰는 것도 설계가 아닙니다.

▲ 목차로 돌아가기

Q&A

Q1. GPT-5.4 mini를 ChatGPT에서 직접 선택할 수 있나요?
+
아니요. 모델 선택기에는 표시되지 않습니다. Free·Go 플랜에서는 + 메뉴의 Thinking 기능이 mini를 기본값으로 사용하고, Plus 이상에서는 GPT-5.4 Thinking 한도 소진 시 자동 폴백으로 작동합니다. 직접 선택하려면 API를 통해 gpt-5.4-mini 모델 ID를 호출해야 합니다. (출처: OpenAI Help Center, 2026.03.25 기준)
Q2. GPT-5.4 nano와 mini, 어떤 차이가 있나요?
+
nano는 mini보다 가격이 약 3.75배 저렴하지만($0.20 vs $0.75 입력 기준), 성능 차이도 큽니다. OSWorld(컴퓨터 조작) 기준 mini 72.1% vs nano 39.0%로 33%p 차이가 납니다. nano는 분류·데이터 추출·대량 처리처럼 단순 반복 작업에 맞고, ChatGPT에서는 지원하지 않으며 API 전용입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Q3. Plus 플랜에서 주당 Thinking 3,000회 한도를 넘으면 어떻게 되나요?
+
Q4. 400K 컨텍스트 윈도우면 긴 문서 처리에도 충분하지 않나요?
+
지원 가능한 입력 길이와 실제 처리 정확도는 다릅니다. 공식 롱 컨텍스트 벤치마크(MRCR v2, 128K~256K 구간)에서 GPT-5.4 mini의 정확도는 33.6%로, GPT-5.4(79.3%)의 절반에도 못 미칩니다. 대규모 코드베이스 전체 분석이나 긴 계약서 검토 같은 작업에는 mini보다 플래그십이 더 적합합니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Q5. Codex에서 mini를 쓰면 얼마나 아낄 수 있나요?
+
Codex에서 GPT-5.4 mini는 GPT-5.4 쿼터의 30%만 소비합니다. 같은 쿼터로 약 3.3배 더 많은 작업을 처리할 수 있습니다. 단순 코드 리뷰, 파일 탐색, 지원 문서 처리처럼 난이도가 높지 않은 서브태스크는 mini에 위임하고, 플래그십은 최종 판단이나 복잡한 설계 작업에 집중하는 구조가 효율적입니다. (출처: OpenAI 공식 블로그, 2026.03.17)

▲ 목차로 돌아가기

마치며

다만 “싸고 빠르다 = 다 된다”는 공식은 성립하지 않습니다. 긴 컨텍스트에서의 성능 하락은 공식 벤치마크에 그대로 나와 있습니다. 터미널 에이전트 작업에서도 플래그십 대비 15%p 이상 차이가 납니다. 이 숫자는 작지 않습니다.

써보니 가장 현실적인 접근은 작업 유형별로 모델을 나눠 쓰는 겁니다. 반복적이고 병렬 처리 가능한 작업에는 mini, 긴 컨텍스트·복잡한 추론·터미널 작업에는 플래그십. Codex 환경이라면 mini를 서브에이전트로 적극 활용하는 구조가 현재 시점에서 가장 합리적인 선택입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano
    https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
  2. OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (모델 한도·플랜별 안내)
    https://help.openai.com/en/articles/11909943
  3. OpenAI Help Center — Model Release Notes (공식 릴리스 노트)
    https://help.openai.com/ko-kr/articles/9624314-model-release-notes
  4. DataCamp — GPT-5.4 mini and nano: Benchmarks, Access, and Reactions
    https://www.datacamp.com/blog/gpt-5-4-mini-nano

본 포스팅은 2026년 3월 26일 기준으로 작성됐습니다. OpenAI의 서비스 정책·UI·모델 사양·요금은 업데이트로 언제든 변경될 수 있습니다. 최신 정보는 OpenAI 공식 홈페이지 및 Help Center에서 직접 확인하시기 바랍니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기