GPT-5.4 mini 벤치마크 4가지, 공식 문서에서 직접 확인했습니다

Published on

in

GPT-5.4 mini 벤치마크 4가지, 공식 문서에서 직접 확인했습니다

2026.03.18 출시 기준
GPT-5.4 mini
OpenAI 공식 수치

GPT-5.4 mini 벤치마크 4가지, 공식 문서에서 직접 확인했습니다

무료 사용자도 Thinking이 된다고 했는데, 막상 조건을 보면 달랐습니다. GPT-5.4 mini는 3월 18일 공개된 OpenAI의 가장 최근 소형 모델입니다. 성능 수치는 공식 발표문에, 요금제별 접근 조건은 공식 Help Center에 각각 나눠져 있어서 같이 보지 않으면 놓치는 부분이 생깁니다.

2×+
GPT-5 mini 대비 속도
54.4%
SWE-Bench Pro (공식)
$0.75
API 입력 / 1M 토큰
400K
컨텍스트 윈도우

GPT-5.4 mini, 정확히 뭔가요?

GPT-5.4 mini는 2026년 3월 18일 OpenAI가 공개한 소형 모델입니다. GPT-5.4 nano와 동시에 발표됐고, OpenAI 표현대로 “지금까지 나온 소형 모델 중 가장 뛰어난 성능”을 내세웁니다. (출처: OpenAI 공식 블로그, 2026.03.17)

전작인 GPT-5 mini와 비교해서 코딩, 추론, 멀티모달 이해, 툴 사용 네 영역에서 성능이 올랐고, 속도는 전작 대비 2배 이상 빠릅니다. 소형 모델이지만 일부 벤치마크에서 GPT-5.4 full 수치에 근접한다는 점이 공식 발표의 핵심입니다.

이 모델이 나온 맥락을 이해하는 게 중요합니다. OpenAI는 GPT-5.4 full을 에이전트, 코딩 전문용 모델로 포지셔닝하면서, GPT-5.4 mini는 “빠른 응답이 제품 경험을 결정하는 워크로드”에 맞춰 설계했다고 발표했습니다. 즉, 큰 모델이 판단하고 작은 모델이 실행하는 구조를 전제로 만든 모델입니다.

▲ 목차로 돌아가기

Free 사용자도 Thinking이 된다 — 조건이 있습니다

💡 공식 발표문과 Help Center를 같이 놓고 보니 접근 방식이 요금제마다 완전히 다르게 설계돼 있었습니다.

OpenAI 공식 모델 릴리스 노트(2026.03.18)에 이렇게 나와 있습니다. “GPT-5.4 mini는 Free 및 Go 사용자가 + 메뉴의 Thinking 기능을 통해 이용할 수 있습니다.” 얼핏 보면 무료 사용자도 Thinking 기능을 자유롭게 쓸 수 있는 것처럼 읽힙니다.

막상 Help Center의 사용 한도를 확인해보면 다릅니다. Free 플랜은 GPT-5.3 기준 5시간마다 10개 메시지 한도이고, 한도 도달 시 자동으로 미니 버전으로 다운그레이드됩니다. GPT-5.4 Thinking은 하루 1건입니다. (출처: OpenAI Help Center, 2026.03.22 기준)

반면 GPT-5.4 Thinking을 수동 선택할 수 있는 Plus/Business 플랜은 주당 최대 3,000건 한도입니다. 단, 자동 전환으로 Thinking이 활성화되는 경우는 이 주간 한도에 카운트되지 않습니다. 한도를 다 써도 Instant 모드에서 자동 전환은 계속 작동합니다.

플랜 GPT-5.4 mini 접근 Thinking 한도 컨텍스트
Free Thinking 메뉴 (+ 버튼) 하루 1건 16K
Go ($8/월) Thinking 메뉴 (+ 버튼) 5시간마다 10건 32K
Plus ($20/월) 한도 초과 시 폴백 주당 3,000건 256K
Business ($25~30/월) 폴백 + 수동 선택 주당 3,000건 256K
Pro ($200/월) 폴백 + 수동 선택 사실상 무제한 400K

(출처: OpenAI Help Center / BentoML ChatGPT Usage Limits, 2026.03.22 기준)

▲ 목차로 돌아가기

공식 벤치마크 수치 4가지 직접 확인

OpenAI 공식 발표문(2026.03.17)에 수록된 벤치마크 데이터를 직접 확인했습니다. 아래 수치는 모두 reasoning_effort를 ‘xhigh’로 설정한 결과이고, GPT-5 mini는 ‘high’가 최대치라는 점을 발표문이 별도로 명시하고 있습니다. 그러니까 GPT-5 mini 수치는 사실 최대 성능 기준으로 측정된 겁니다.

벤치마크 GPT-5.4 GPT-5.4 mini GPT-5 mini
SWE-Bench Pro (코딩) 57.7% 54.4% 45.7%
OSWorld-Verified (컴퓨터 사용) 75.0% 72.1% 42.0%
GPQA Diamond (지식추론) 93.0% 88.0% 81.6%
Terminal-Bench 2.0 (터미널) 75.1% 60.0% 38.2%

(출처: OpenAI “Introducing GPT-5.4 mini and nano”, 2026.03.17)

SWE-Bench Pro에서 GPT-5.4 mini는 54.4%로 GPT-5.4(57.7%)와 3.3%p 차이입니다. 코딩 실제 업무 기준으로 두 모델이 거의 같은 수준이라는 뜻입니다. OSWorld-Verified에서도 75.0% 대 72.1%로 차이가 2.9%p에 불과합니다.

반면 Terminal-Bench 2.0은 75.1% 대 60.0%로 차이가 15.1%p로 더 벌어집니다. 긴 터미널 작업처럼 장시간 실행이 필요한 영역에서는 mini 모델의 한계가 있다는 점을 공식 발표문이 수치로 보여주는 겁니다.

▲ 목차로 돌아가기

GPT-5.4 full과 얼마나 다를까

💡 GPT-5.4 mini가 거의 같다는 말이 틀린 게 아닌데, 어디에서 쓰느냐에 따라 체감 차이가 달라지는 이유가 있습니다.

OpenAI 공식 발표문은 GPT-5.4 mini를 “several evaluations에서 GPT-5.4에 근접한다”고 표현했습니다. 핵심 단어가 ‘several’입니다. 모든 벤치마크가 아니라, 특정 영역에서만 근접합니다. SWE-Bench Pro와 OSWorld-Verified는 근접하지만, 장문 컨텍스트 처리에서는 차이가 큽니다.

공식 수치를 보면, 장문 컨텍스트 벤치마크(OpenAI MRCR v2, 128K~256K 범위)에서 GPT-5.4는 79.3%인 반면 GPT-5.4 mini는 33.6%입니다. (출처: OpenAI “Introducing GPT-5.4 mini and nano”, 2026.03.17) 이 차이는 33.6% 대 79.3%, 2배 이상입니다. 단순 코딩 보조나 짧은 쿼리에서는 차이를 거의 못 느끼지만, 긴 문서를 여러 개 참조하는 리서치 작업에서는 full 모델과 다른 결과가 나올 수 있습니다.

솔직히 말하면, 일상적인 ChatGPT 사용 시나리오에서는 GPT-5.4 mini와 full의 차이를 체감하기 어렵습니다. 그 차이가 두드러지는 구간은 한 번에 수십만 토큰을 처리해야 하는 전문 업무나 자동화 파이프라인 쪽입니다.

▲ 목차로 돌아가기

API 가격과 Codex 30% 쿼터가 뜻하는 것

💡 Codex에서 GPT-5.4 mini가 쿼터 30%만 쓴다는 발표를 보고 “그냥 저렴한 옵션”이라고 읽으면, 설계 의도를 절반만 본 겁니다.

API 가격은 입력 $0.75/1M 토큰, 출력 $4.50/1M 토큰입니다. GPT-5.4 full과 비교하면 상당히 저렴한 수준이고, GPT-5 mini보다는 비싸게 책정됐습니다. (출처: OpenAI “Introducing GPT-5.4 mini and nano”, 2026.03.17)

Codex에서의 30% 쿼터 정책이 더 흥미롭습니다. GPT-5.4를 쓰면 쿼터를 100% 소진하는 작업을, GPT-5.4 mini로 처리하면 같은 쿼터로 약 3.3배 더 많은 작업을 돌릴 수 있다는 뜻입니다. 코드베이스 검색, 대용량 파일 리뷰, 서브태스크 분기 같은 반복 작업에 GPT-5.4 mini를 서브에이전트로 배치하고, 최종 판단만 GPT-5.4에 맡기면 비용 대비 처리량이 크게 달라집니다.

이게 OpenAI가 공식 발표문에서 직접 언급한 “큰 모델이 계획하고 작은 모델이 실행하는 패턴”의 실체입니다. 단순히 저렴한 모델로 교체하는 게 아니라, 역할을 나눠 쓸 때 진가가 나오는 구조입니다.

모델 입력 (1M토큰) 출력 (1M토큰) 컨텍스트
GPT-5.4 mini $0.75 $4.50 400K
GPT-5.4 nano $0.20 $1.25 API 전용
GPT-5 (참고) $1.25 $10.00

(출처: OpenAI 공식 블로그 2026.03.17 / BentoML API Pricing 참고)

▲ 목차로 돌아가기

GPT-5.4 nano는 ChatGPT에서 못 씁니다

GPT-5.4 mini와 동시에 발표된 GPT-5.4 nano는 ChatGPT에서 쓸 수 없습니다. OpenAI는 nano를 API 전용으로 배포했고, 가격은 입력 $0.20/1M 토큰으로 mini보다 73% 저렴합니다. (출처: OpenAI “Introducing GPT-5.4 mini and nano”, 2026.03.17)

OpenAI가 nano의 권장 용도로 직접 언급한 항목은 분류(classification), 데이터 추출(data extraction), 순위 매기기(ranking), 서브에이전트의 단순 지원 작업입니다. 코딩 보조용으로 쓰기엔 성능 차이가 있고, 긴 문맥 처리는 GPT-5.4 mini보다도 떨어집니다. OSWorld-Verified에서 nano는 39.0%로 mini(72.1%)의 절반 수준입니다.

⚠️ 주의: GPT-5.4 nano는 현재 API를 통해서만 접근할 수 있으며, ChatGPT 인터페이스에서는 제공되지 않습니다. GPT-5 Thinking mini는 출시 후 30일이 지나면 모델 선택기에서 제거됩니다. (출처: OpenAI 공식 릴리스 노트, 2026.03.18)

개인적으로 봤을 때, GPT-5.4 nano가 일반 ChatGPT 사용자한테는 당장 의미 없는 모델입니다. 에이전트 파이프라인을 직접 설계하거나 API 비용을 줄여야 하는 개발자 관점에서만 실제로 활용 가능한 포지셔닝입니다.

▲ 목차로 돌아가기

Q&A

Q1. ChatGPT 무료 사용자도 GPT-5.4 mini의 Thinking 기능을 쓸 수 있나요?
쓸 수 있습니다. 다만 하루 1건입니다. ChatGPT의 + 버튼 메뉴에서 Thinking을 선택하면 GPT-5.4 mini가 활성화됩니다. 한도가 다 차면 미니 버전으로 자동 전환됩니다. (출처: OpenAI Help Center, 2026.03.22 기준)
Q2. GPT-5.4 mini와 GPT-5.4 full의 성능 차이가 크게 나는 영역은 어디인가요?
장문 컨텍스트 처리와 터미널 작업에서 차이가 큽니다. OpenAI MRCR v2(128K~256K) 기준 GPT-5.4는 79.3%, mini는 33.6%입니다. Terminal-Bench 2.0에서도 75.1% 대 60.0%로 15%p 차이가 납니다. 코딩이나 멀티모달 작업에서는 차이가 작습니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Q3. GPT-5.4 nano는 ChatGPT에서 사용할 수 없나요?
현재 API 전용입니다. ChatGPT 인터페이스에서는 접근이 안 됩니다. 가격은 입력 $0.20/1M 토큰으로 mini보다 저렴하지만, 긴 컨텍스트 처리나 복잡한 코딩 작업엔 적합하지 않습니다. (출처: OpenAI “Introducing GPT-5.4 mini and nano”, 2026.03.17)
Q4. Plus 사용자가 GPT-5.4 Thinking 주간 한도를 초과하면 어떻게 되나요?
수동으로 Thinking 모드를 선택하는 건 막히지만, Instant 모드에서 자동으로 Thinking으로 전환되는 경우는 계속 작동합니다. 자동 전환 사용량은 주간 한도에 카운트되지 않습니다. (출처: OpenAI Help Center, 2026.03.22 기준)
Q5. Codex에서 GPT-5.4 mini를 쓰면 비용이 실제로 얼마나 절감되나요?

▲ 목차로 돌아가기

마치며

GPT-5.4 mini를 정리하고 나서 남은 인상은 이렇습니다. “소형 모델”이라는 포지셔닝이 예전처럼 단순히 저렴한 대안을 뜻하지 않습니다. 코딩과 컴퓨터 사용 벤치마크에서 full 모델과 거의 차이 없는 수치가 나온다는 건, 대부분의 일상 작업에선 굳이 full 모델을 고집할 이유가 줄어든다는 뜻입니다.

다만 장문 문서 분석이나 긴 터미널 작업에서는 여전히 차이가 있습니다. 본문에서 언급한 OpenAI MRCR 벤치마크 수치가 그 한계를 가장 직접적으로 보여줍니다. 목적에 맞는 모델을 고르는 게 중요한 이유가 여기 있습니다.

Free 사용자 입장에서는 하루 1건이지만 Thinking 기능이 열렸다는 게 실질적인 변화이고, 개발자 입장에서는 Codex 서브에이전트 구조가 비용 효율을 높이는 구체적인 방법으로 제시됐다는 점이 이번 출시의 핵심입니다. 공식 문서에서 직접 확인한 수치와 조건들이 여기까지입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. ① OpenAI 공식 블로그 — “Introducing GPT-5.4 mini and nano” (openai.com, 2026.03.17)
  2. ② OpenAI Help Center — “GPT-5.3 and GPT-5.4 in ChatGPT” (help.openai.com, 2026.03.22 기준)
  3. ③ OpenAI Help Center — “ChatGPT Model Release Notes” (help.openai.com/ko-kr, 2026.03.18)
  4. ④ BentoML — “ChatGPT Usage Limits Explained” (bentoml.com, 2026.03 기준)
  5. ⑤ Engadget — “GPT-5.4 mini brings some of the smarts of OpenAI’s latest model to ChatGPT Free and Go users” (engadget.com, 2026.03.17)

본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 반드시 OpenAI 공식 문서를 직접 확인해 주세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기