GPT-5.4 mini, 실제로 따져봤습니다 — 플래그십과의 차이는 여기서 납니다

Published on

in

GPT-5.4 mini, 실제로 따져봤습니다 — 플래그십과의 차이는 여기서 납니다

2026.03.17 기준 / GPT-5.4 mini-2026-03-17
IT/AI

GPT-5.4 mini, 실제로 따져봤습니다
— 플래그십과의 차이는 여기서 납니다

가격은 플래그십의 30%, 속도는 2배 이상. GPT-5.4 mini와 nano가 3월 17일 공식 출시됐습니다. 수치만 보면 거의 완벽한 대체재처럼 보이지만, 공식 벤치마크를 그대로 놓고 비교해보니 생각보다 조용히 떨어지는 구간이 있었습니다. 어떤 작업에 쓸 수 있고, 어떤 조건에서 조심해야 하는지 공식 문서 기준으로 정리했습니다.

$0.75
mini 입력 / 100만 토큰
$0.20
nano 입력 / 100만 토큰
2×+
GPT-5 mini 대비 속도
54.4%
SWE-bench Pro (mini)

GPT-5.4 mini·nano가 나온 배경과 포지셔닝

GPT-5.4 mini와 GPT-5.4 nano는 2026년 3월 17일 OpenAI가 공식 출시한 경량 모델입니다. 3월 5일 플래그십 GPT-5.4 Thinking이 나온 지 12일 만의 후속 발표입니다. (출처: OpenAI 공식 블로그, 2026.03.17)

OpenAI가 이 모델을 내놓은 이유는 공식 발표문에 꽤 솔직하게 적혀 있습니다. “이런 환경에서 최선의 모델은 가장 큰 것이 아니다 — 빠르게 응답하고, 도구를 안정적으로 쓰고, 복잡한 전문 작업에서도 성능을 내는 모델이다.” 즉 GPT-5.4의 역할이 ‘플래그십 단독 운용’이 아닌 ‘대형 모델과 소형 모델의 조합’으로 이동하고 있다는 선언에 가깝습니다.

두 모델의 포지셔닝을 간단히 정리하면, mini는 코딩 보조·에이전트 서브작업·컴퓨터 사용·멀티모달 처리에 최적화돼 있고, nano는 분류·데이터 추출·랭킹·단순 서브에이전트 용도를 겨냥하고 있습니다. nano는 현재 API 전용으로만 제공되고 ChatGPT 앱에서는 직접 선택할 수 없습니다.

▲ 목차로 돌아가기

가격 구조 — 플래그십 대비 얼마나 저렴한가

공식 API 가격을 그대로 놓고 보면 격차가 꽤 큽니다.

모델 입력
(100만 토큰당)
출력
(100만 토큰당)
플래그십 대비
GPT-5.4 (플래그십) $2.50 $15.00
GPT-5.4 mini $0.75 $4.50 30% 수준
GPT-5.4 nano $0.20 $1.25 8% 수준

(출처: OpenAI API Pricing 공식 페이지, 2026.03.17 기준)

nano는 플래그십 출력 가격의 8% 수준입니다. 같은 예산으로 12배 이상의 토큰을 처리할 수 있다는 뜻입니다.

한 가지 주의할 점이 있습니다. 이전 세대인 GPT-5 mini($0.25/입력)와 GPT-5 nano($0.05/입력)와 비교하면, mini는 3배, nano는 무려 4배 비싸졌습니다. (출처: OpenAI 커뮤니티 공식 발표 스레드, 2026.03.17) 성능이 올랐으니 당연한 가격 조정이지만, “소형 모델이니 더 싸졌겠지”라고 기대했다면 예상 밖의 수치입니다.

▲ 목차로 돌아가기

코딩·툴 호출·멀티모달 벤치마크 비교

공식 발표문에 포함된 벤치마크 수치를 그대로 가져왔습니다. 전부 xhigh reasoning effort 기준입니다. (출처: OpenAI 공식 블로그, 2026.03.17)

벤치마크 GPT-5.4 mini nano GPT-5 mini
(구세대)
SWE-bench Pro (코딩) 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 75.1% 60.0% 46.3% 38.2%
GPQA Diamond (지식) 93.0% 88.0% 82.8% 81.6%
OSWorld-Verified (컴퓨터 조작) 75.0% 72.1% 39.0% 42.0%
Toolathlon (툴 호출) 54.6% 42.9% 35.5% 26.9%

💡 공식 발표문에 나온 수치를 나란히 놓고 보니 이런 차이가 보였습니다. nano는 컴퓨터 조작(OSWorld-Verified) 항목에서 mini와 두드러지게 벌어집니다 — 72.1% vs 39.0%로 약 33%p 차이입니다. 컴퓨터 화면을 해석하고 클릭하는 작업에서는 nano를 쓰면 mini 대비 성공률이 절반 수준으로 떨어진다는 뜻입니다. nano를 ‘저렴한 mini 대체재’로 쓰기엔 이 항목이 발목을 잡습니다.

반면 코딩 작업(SWE-bench Pro)은 nano도 52.4%로 플래그십(57.7%)의 90% 수준입니다. API 기반 코딩 파이프라인이라면 nano를 써도 성능 손실이 미미합니다.

▲ 목차로 돌아가기

장문 처리에서 조용히 생기는 격차

💡 벤치마크 표에 있는 Long Context 항목을 다른 항목들과 같이 두면 잘 보이지 않는데, 이것만 따로 꺼내서 보면 이야기가 달라집니다.

OpenAI MRCR v2(8-needle, 128K~256K 구간) 벤치마크에서 플래그십은 79.3%를 기록했지만, mini는 33.6%, nano는 33.1%로 절반도 안 됩니다. (출처: OpenAI 공식 블로그, 2026.03.17) 긴 문서 안에 흩어진 정보를 정확히 짚어내야 하는 작업에서는 mini와 플래그십 사이의 격차가 코딩 벤치마크 수치로는 전혀 드러나지 않습니다.

Long Context 벤치마크 GPT-5.4 mini nano
MRCR v2 (64K~128K) 86.0% 47.7% 44.2%
MRCR v2 (128K~256K) 79.3% 33.6% 33.1%

계약서·법률 문서·대형 코드베이스처럼 수십만 토큰 규모의 자료를 한 번에 처리해야 한다면, mini는 플래그십의 42% 성능밖에 못 냅니다. 정확도가 중요한 작업에서 mini를 선택했다가 절반 가량의 정보를 놓치는 상황이 생길 수 있습니다.

반면 Graphwalks BFS(0~128K) 기준으로는 플래그십 93.1% vs mini 76.3%로, 그래프 순회처럼 구조가 명확한 장문 작업은 상대적으로 격차가 덜합니다. 장문이라도 문서의 성격에 따라 결과가 크게 달라집니다.

▲ 목차로 돌아가기

ChatGPT 무료·Go·Plus별로 실제 쓸 수 있는 조건

“무료 사용자도 GPT-5.4 mini 쓸 수 있다”는 문장은 반은 맞고 반은 다릅니다. OpenAI Help Center 공식 문서에는 이렇게 나옵니다.

📌 요금제별 GPT-5.4 mini 접근 방식 (출처: OpenAI Help Center, 2026.03.17 업데이트)

  • Free 유저: Thinking 메뉴에서 GPT-5.4 mini 선택 가능 → 5시간마다 10회 한도로 GPT-5.3 사용 가능, 한도 소진 시 자동으로 GPT-5.3 mini 버전으로 전환
  • Go 유저: Thinking 메뉴에서 GPT-5.4 mini 선택 가능, 5시간마다 10회 한도
  • Plus/Business 유저: GPT-5.4 Thinking의 rate limit fallback으로 GPT-5.4 mini 자동 투입 (직접 선택은 별도)

정리하면, 무료 유저에게 GPT-5.4 mini는 “Thinking 탭을 눌렀을 때 쓸 수 있는 옵션”이지만, 일반 대화 모드의 기본값은 아닙니다. 한도를 다 쓰면 GPT-5.3 mini로 떨어집니다. “무료로 GPT-5.4 mini를 마음껏 쓸 수 있다”는 표현은 공식 문서와 맞지 않습니다.

반면 Plus 유저는 GPT-5.4 Thinking 주간 한도(3,000회)가 소진됐을 때 자동으로 mini가 fallback으로 들어오기 때문에, 주간 한도 이후에도 mini 품질은 유지됩니다. 이 fallback 메커니즘은 공식 문서에 명확히 나와 있고, Claude나 Gemini 유사 서비스에는 없는 구조입니다.

▲ 목차로 돌아가기

Codex에서 쓰면 예산이 3배로 늘어나는 구조

💡 공식 발표문과 Codex 문서를 같이 놓고 보니 이런 계산이 나왔습니다. API 요금이 아닌 Codex 쿼타 소비 방식도 달라집니다.

Codex에서 GPT-5.4 mini는 플래그십 GPT-5.4 quota의 30%만 소비합니다. (출처: OpenAI 공식 블로그 ‘Introducing GPT-5.4 mini and nano’, 2026.03.17) 같은 quota로 약 3.3배 많은 요청을 처리할 수 있다는 뜻입니다.

코딩 워크플로에서 이 구조를 활용하는 방식이 있습니다. 큰 판단이 필요한 설계·리뷰 작업은 플래그십 GPT-5.4로 처리하고, 코드베이스 탐색·특정 파일 검토·보조 문서 처리처럼 반복적인 서브작업은 GPT-5.4 mini 서브에이전트에 위임하는 방식입니다. Codex는 이 구조를 공식 서브에이전트 기능으로 지원하고 있습니다.

예를 들어 하루 30개의 Codex 플래그십 요청 예산이 있다면, mini 서브에이전트 100개 요청과 플래그십 10개 요청을 조합해도 quota 내에서 처리됩니다(계산: mini 100 × 0.3 = quota 30 소비). 플래그십만 쓸 때보다 작업 처리량이 사실상 4배 이상으로 늘어나는 구조입니다.

▲ 목차로 돌아가기

mini vs nano — 어떤 작업에 뭘 써야 하는가

수집된 벤치마크와 공식 발표 내용을 정리하면, 두 모델은 겹치는 것처럼 보이지만 실제로 강한 구간이 다릅니다.

✅ GPT-5.4 mini가 유리한 작업
  • 코딩 보조 (SWE-bench Pro 54.4%)
  • 컴퓨터 화면 해석·조작 (OSWorld 72.1%)
  • 실시간 이미지 추론
  • Codex 서브에이전트 (quota 30%)
  • 툴 호출이 필요한 에이전트 작업
✅ GPT-5.4 nano가 유리한 작업
  • 대량 문서 분류·추출
  • 단순 코드 서브에이전트
  • 랭킹·라우팅 판단
  • API 기반 고용량 처리 파이프라인
⚠️ 두 모델 모두 주의할 작업
  • 128K 이상 장문 문서 분석 (MRCR v2에서 33~47%)
  • 계약서·법률 문서 전체 검토
  • 대형 코드베이스 전체 맥락 파악

nano는 ChatGPT 앱에서 직접 선택할 수 없다는 점도 실용적 차이입니다. nano는 API 전용이라 개발자·자동화 파이프라인 용도로만 쓸 수 있고, 일반 사용자는 mini까지만 접근 가능합니다. nano를 일반 대화에서 쓰고 싶어도 현재로서는 방법이 없습니다.

솔직히 말하면, 개인 사용자에게 nano의 존재감은 아직 거의 없습니다. API를 직접 연동해 서비스를 만드는 개발자 입장에서만 의미 있는 모델입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. GPT-5.4 mini는 무료 ChatGPT에서 쓸 수 있나요?

Thinking 메뉴를 선택했을 때만 쓸 수 있고, 5시간당 10회 한도가 있습니다. 일반 대화 기본값은 GPT-5.3이고, 한도 소진 시 mini 버전으로 전환됩니다. (출처: OpenAI Help Center, 2026.03.17)

Q2. GPT-5.4 nano도 ChatGPT에서 쓸 수 있나요?

현재는 API 전용입니다. ChatGPT 앱에서 nano를 직접 선택하는 메뉴는 제공되지 않습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

Q3. GPT-5.4 mini가 이전 플래그십 GPT-5 mini보다 실제로 얼마나 좋아졌나요?

SWE-bench Pro 기준 45.7% → 54.4%로 약 8.7%p 올랐고, OSWorld-Verified(컴퓨터 조작)는 42% → 72.1%로 30%p 이상 뛰었습니다. 속도도 2배 이상 빠릅니다. 가격은 입력 기준 $0.25 → $0.75로 3배 올랐습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

Q4. mini와 플래그십을 언제 각각 써야 하나요?

코딩 서브작업, 컴퓨터 화면 해석, 반복 에이전트 작업은 mini가 더 경제적입니다. 128K 이상 장문 문서 분석, 복잡한 추론이 필요한 최종 판단 작업은 플래그십을 유지하는 게 안전합니다. MRCR v2 벤치마크에서 mini는 플래그십의 절반도 안 나옵니다.

Q5. Codex에서 mini를 쓰면 실제로 비용이 얼마나 절감되나요?

Codex에서 GPT-5.4 mini는 플래그십 quota의 30%만 소비합니다. 같은 예산으로 단순 서브작업 처리량을 3배 이상 늘릴 수 있습니다. 다만 복잡한 코드 설계·최종 리뷰는 플래그십을 유지하는 게 좋습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

▲ 목차로 돌아가기

마치며

GPT-5.4 mini는 수치만 보면 거의 완벽한 대체재처럼 보입니다. SWE-bench Pro 기준으로 플래그십과 3.3%p 차이밖에 안 납니다. 컴퓨터 화면 조작(OSWorld-Verified)에서는 플래그십의 96% 수준이고, 가격은 30%입니다.

그런데 장문 처리 성능만 따로 꺼내보면 얘기가 달라집니다. 128K 이상 문서에서는 플래그십 대비 정확도가 절반 이하로 떨어집니다. 대부분의 소개 글이 코딩 벤치마크 위주로 다루기 때문에 이 부분이 잘 드러나지 않는데, 실제 사용에서는 꽤 중요한 차이입니다.

개인적으로 가장 눈길이 가는 부분은 Codex의 quota 구조입니다. mini를 서브에이전트로 써서 예산을 3배 이상 늘리는 방식은, “어떤 모델을 쓸까”가 아니라 “어떻게 조합할까”로 질문 자체가 바뀌고 있다는 신호처럼 보였습니다. AI 사용 방식이 단일 모델 채택에서 역할별 계층 구조로 이동하고 있다는 방향이 이번 출시에서 꽤 선명하게 읽혔습니다.

nano는 아직 API 전용이라 일반 사용자에게는 존재감이 적지만, 대규모 자동화 파이프라인을 구성하는 입장에서는 가격 대비 코딩 성능이 매력적인 선택지입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. ① OpenAI 공식 블로그 — “Introducing GPT-5.4 mini and nano” (2026.03.17) → openai.com/index/introducing-gpt-5-4-mini-and-nano/
  2. ② OpenAI Help Center — “GPT-5.3 and GPT-5.4 in ChatGPT” (2026.03.17 업데이트) → help.openai.com/en/articles/11909943
  3. ③ OpenAI 커뮤니티 공식 발표 스레드 — 가격표·vision 토큰 상세 (2026.03.17) → community.openai.com/t/1377015
  4. ④ ZDNET — “OpenAI’s GPT-5.4 mini and nano launch” (2026.03.17) → zdnet.com/article/gpt-5-4-mini-and-nano/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 기준 시점: 2026년 3월 17일 공식 발표 기준 / GPT-5.4 mini-2026-03-17. OpenAI의 요금 정책, 가용성, 벤치마크 수치는 업데이트에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기