GPT-5.4 mini 벤치마크 5개, 공식 문서에서 직접 확인했습니다

Published on

in

GPT-5.4 mini 벤치마크 5개, 공식 문서에서 직접 확인했습니다

2026.03.18 출시 기준
GPT-5.4 mini 공식 기준

GPT-5.4 mini 벤치마크 5개,
공식 문서에서 직접 확인했습니다

2026년 3월 18일, OpenAI가 GPT-5.4 mini와 nano를 동시에 공개했습니다. 출시 발표문에는 “Free 및 Go 사용자도 Thinking 기능 사용 가능”이라는 문구가 담겨 있습니다. 그런데 공식 릴리스 노트를 직접 읽어보면, 그 조건이 예상과 꽤 다릅니다.

SWE-Bench Pro
54.4%
vs GPT-5 mini 45.7%
OSWorld
72.1%
vs GPT-5 mini 42.0%
컨텍스트
400K
본 모델 1,050K 대비
API 입력 가격
$0.75
/100만 토큰

GPT-5.4 mini가 뭔지 먼저 짚고 갑니다

GPT-5.4 mini는 2026년 3월 18일(KST) OpenAI가 공식 출시한 GPT-5.4 계열의 경량 모델입니다. GPT-5 mini의 직계 후속 모델로, 코딩·추론·멀티모달 이해·도구 사용 전반에서 GPT-5 mini 대비 성능이 크게 향상됐고 속도는 2배 이상 빨라졌습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

단순히 큰 모델의 축소판이 아닙니다. API는 물론 OpenAI Codex와 ChatGPT에서 모두 사용할 수 있도록 배포됐고, 특히 Codex 환경에서는 GPT-5.4 할당량의 30%만 소비해 비용 구조 자체가 달라집니다. 쉽게 말해 같은 예산으로 3배 더 많이 돌릴 수 있다는 뜻입니다.

이번 글은 공식 발표문과 릴리스 노트, 그리고 실사용 데이터를 교차 확인해 수치 하나하나를 직접 검증한 내용입니다. 마케팅 문구가 아니라 벤치마크 숫자에 집중합니다.

▲ 목차로 돌아가기

성능 수치 5개, 공식 문서에서 직접 뽑았습니다

OpenAI 공식 발표문(openai.com)에 공개된 벤치마크를 항목별로 정리했습니다. 비교 기준은 GPT-5.4 mini(xhigh)와 전 세대 GPT-5 mini(high)입니다.

벤치마크 GPT-5.4 mini GPT-5 mini GPT-5.4 (풀)
① SWE-Bench Pro (코딩) 54.4% 45.7% 57.7%
② OSWorld-Verified (컴퓨터 제어) 72.1% 42.0% 75.0%
③ GPQA Diamond (고난도 지식) 88.0% 81.6% 93.0%
④ Toolathlon (도구 호출) 42.9% 26.9% 54.6%
⑤ Terminal-Bench 2.0 (터미널) 60.0% 38.2% 75.1%

가장 인상적인 건 OSWorld 수치입니다. 전 세대 mini가 42%였는데 이번 mini가 72.1%로, 폭이 30%p 넘습니다. 풀 모델(75%)과의 격차는 불과 3%p — 컴퓨터 제어 작업 한정으로는 사실상 같은 급입니다.

▲ 목차로 돌아가기

Free 사용자도 Thinking 쓸 수 있다 — 단, 이 조건입니다

💡 공식 릴리스 노트와 발표문을 같이 놓고 보니 이런 차이가 보였습니다 — “사용 가능”과 “선택 가능”은 다른 말입니다.

OpenAI 릴리스 노트(2026.03.18)에 이렇게 나옵니다: “GPT-5.4 mini는 모델 선택기에서 선택 가능한 모델로 표시되지 않습니다.” Free·Go 사용자는 ‘+’ 메뉴의 ‘잘 생각하기(Thinking)’를 눌러 쓸 수 있긴 합니다. (출처: OpenAI Help Center, 2026.03.18)

그런데 여기서 실제로 작동하는 방식이 중요합니다. Free·Go 사용자 입장에서 ‘Thinking’을 켜면 GPT-5.4 mini가 구동되는 것이지, GPT-5.4 본 모델이 아닙니다. Plus·Pro·Team 요금제 사용자의 경우 GPT-5.4 Thinking 한도를 다 쓰면 자동으로 mini로 폴백(fallback)되는 구조입니다. 직접 mini를 골라서 쓰는 게 아니라는 뜻입니다.

기존 GPT-5 Thinking mini는 이 출시에 맞춰 2026년 4월 18일에 지원이 종료될 예정입니다. 현재 GPT-5 Thinking mini를 쓰고 있었다면 30일 안에 자동 전환됩니다.

📌 요약하면: Free 사용자는 Thinking 버튼으로 GPT-5.4 mini를 쓸 수 있습니다. 단, 모델 선택기에는 표시되지 않고, Plus 이상은 한도 소진 시 자동 전환됩니다. “무료로 GPT-5.4 Thinking이 됩니다”라고 읽으면 틀립니다.

▲ 목차로 돌아가기

nano가 mini보다 못하다고요? 이 수치가 다릅니다

💡 nano를 “mini의 열화판”으로 보는 시각이 많은데, 공식 벤치마크를 올려놓고 보면 한 항목에서 예상과 반대 방향이 나옵니다.

GPT-5.4 nano는 OpenAI가 “분류·데이터 추출·랭킹·단순 코딩 서브에이전트” 용도를 명시한 모델입니다. 가격은 API 기준 입력 $0.20/100만 토큰, 출력 $1.25/100만 토큰으로, mini($0.75 / $4.50) 대비 약 3~4배 저렴합니다. (출처: OpenAI 공식 블로그, 2026.03.17)

그런데 OSWorld-Verified 점수를 보면 nano가 39.0%입니다. 전 세대 GPT-5 mini가 42.0%였으니, nano는 전 세대 mini보다 낮습니다. OpenAI가 공식 발표문에서 “GPT-5.4 family”라고 묶어서 소개했기 때문에, nano도 GPT-5.4 수준의 컴퓨터 제어 능력을 가진다고 오해하기 쉽습니다. 컴퓨터 제어 파이프라인에 nano를 끼워 넣으면 오히려 전 세대보다 성능이 떨어집니다.

단, nano가 mini를 압도하는 영역은 따로 있습니다. 단순 분류와 데이터 추출처럼 추론 깊이가 필요 없는 태스크에서는 가격 대비 처리량이 압도적입니다. mini 대비 4배 싼 비용으로 같은 수의 호출을 처리할 수 있으면, 파이프라인 전체 단가가 바뀝니다.

항목 GPT-5.4 mini GPT-5.4 nano
OSWorld (컴퓨터 제어) 72.1% 39.0%
Terminal-Bench 2.0 60.0% 46.3%
API 입력 가격 (100만 토큰) $0.75 $0.20
ChatGPT 접근 가능 API 전용

nano는 ChatGPT에서 쓸 수 없습니다. API에서만 접근 가능합니다. (출처: OpenAI 공식 블로그, 2026.03.17)

▲ 목차로 돌아가기

서브에이전트 구조로 쓰면 달라지는 이유

💡 GPT-5.4 mini를 “저렴한 GPT-5.4″로만 보면 절반만 맞습니다. OpenAI 공식 발표문이 명시한 설계 의도는 다른 곳에 있습니다.

OpenAI는 GPT-5.4 mini의 핵심 사용 시나리오로 서브에이전트(subagent) 아키텍처를 제시했습니다. GPT-5.4가 전체 계획을 세우고 흐름을 조율하면, mini가 코드베이스 검색·대용량 파일 검토·보조 문서 처리 같은 좁은 하위 작업을 병렬로 처리하는 방식입니다. (출처: OpenAI 공식 블로그, 2026.03.17)

Codex 환경에서 GPT-5.4 mini는 GPT-5.4 할당량의 30%만 소비합니다. 같은 할당량으로 mini 호출을 3.3배 더 많이 쓸 수 있다는 뜻입니다. 여러 파일을 병렬로 처리하는 코딩 워크플로에서는 이 구조가 단순히 모델 하나를 고성능으로 바꾸는 것보다 비용 효율이 높아집니다.

실사용 사례도 있습니다. AI 스타트업 Hebbia의 CTO Aabhas Sharma는 특정 워크플로에서 mini가 풀 모델 GPT-5.4보다 높은 end-to-end 통과율을 보였다고 밝혔습니다. 이유는 간단합니다 — 작은 태스크에 풀 모델을 투입하면 오히려 과잉 추론으로 응답이 흔들릴 수 있기 때문입니다. 큰 모델이 항상 정답은 아닙니다.

▲ 목차로 돌아가기

장기 문서에서 조심해야 할 수치가 있습니다

OSWorld 수치가 인상적이어서 GPT-5.4 mini를 전면 대체제로 쓰고 싶은 생각이 들 수 있습니다. 그런데 장기 컨텍스트 벤치마크를 보면 분위기가 달라집니다.

공식 문서에 공개된 OpenAI MRCR v2(8개 정보를 64K~128K 맥락에서 찾는 태스크)에서 GPT-5.4 mini는 47.7%입니다. 풀 모델 GPT-5.4가 86.0%라는 점을 감안하면 38.3%p 차이입니다. (출처: OpenAI 공식 블로그, 2026.03.17) 128K~256K 구간에서는 mini가 33.6%까지 내려갑니다.

컨텍스트 윈도우 자체도 다릅니다. GPT-5.4 본 모델은 1,050,000 토큰이고 mini와 nano는 400,000 토큰입니다. 수치로 보면 mini는 풀 모델의 약 38% 수준입니다. 수백 페이지짜리 PDF 분석처럼 긴 문서 안에서 여러 단서를 동시에 추적해야 하는 작업에 mini를 투입하면, 추론 정확도가 크게 떨어질 수 있습니다.

⚠️ 주의: 장기 계약서 검토, 수백 페이지 보고서 요약처럼 맥락이 긴 작업에는 mini보다 풀 모델이 유리합니다. 비용을 아끼려다 정확도를 잃는 구간이 정확히 이 지점입니다.

프론트엔드 생성 작업도 마찬가지입니다. OpenAI가 공식적으로 별도 이유를 밝히지 않았지만, 실사용 커뮤니티에서는 mini 계열이 프론트엔드 UI 생성에서 여전히 한계가 있다는 피드백이 나옵니다. 코딩 수치가 전반적으로 올랐어도 이 영역은 직접 테스트해보고 결정하는 게 안전합니다.

▲ 목차로 돌아가기

Q&A 5개

Q1. GPT-5.4 mini를 무료로 쓸 수 있나요?
ChatGPT Free 계정에서 ‘+’ 메뉴의 ‘잘 생각하기(Thinking)’를 선택하면 GPT-5.4 mini가 작동합니다. 단, 모델 선택기에서 직접 고를 수 없고, 한도 제한이 있습니다. GPT-5.4 본 모델(Thinking)은 Free 계정에서 사용할 수 없습니다.
Q2. GPT-5.4 nano는 ChatGPT에서 쓸 수 있나요?
현재는 API 전용입니다. ChatGPT 인터페이스에서는 접근할 수 없습니다. OpenAI 공식 발표문(2026.03.17)에 “API only”로 명시돼 있습니다. 추후 확대 여부는 공개되지 않았습니다.
Q3. GPT-5 mini를 쓰고 있었는데, 그냥 계속 써도 되나요?
GPT-5 Thinking mini는 2026년 4월 18일에 지원이 종료됩니다. 이후에는 자동으로 GPT-5.4 mini 계열로 전환됩니다. API 파이프라인에서 모델 ID를 직접 지정해 쓰고 있었다면 확인이 필요합니다.
Q4. Codex에서 GPT-5.4 mini를 쓰면 할당량이 얼마나 줄어드나요?
GPT-5.4 mini는 GPT-5.4 할당량의 30%만 소비합니다. GPT-5.4 1회 호출분으로 mini를 약 3.3회 쓸 수 있다는 계산이 됩니다. 대량의 하위 코딩 작업에 mini를 쓰면 비용 효율이 달라집니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Q5. GPT-5.4 mini API 가격은 얼마인가요?
입력 $0.75 / 출력 $4.50 (100만 토큰 기준)입니다. 전 세대 GPT-5 mini 대비 입력 기준 3배, 출력 기준 2.25배 인상됐습니다. GPT-5.4 nano는 입력 $0.20 / 출력 $1.25입니다. 가격 상승폭이 크기 때문에 기존 파이프라인 비용 재계산이 필요합니다.

▲ 목차로 돌아가기

마치며

GPT-5.4 mini는 확실히 전 세대 mini와 다른 물건입니다. OSWorld 30%p 상승은 단순 수치 개선이 아니라, 컴퓨터 제어 태스크에서 사실상 풀 모델과 같은 급이 됐다는 신호입니다.

그래도 조심해야 할 지점은 두 가지입니다. 첫째, 장기 문서 작업에서는 mini가 풀 모델에 비해 38%p 이상 차이가 납니다. 둘째, nano를 컴퓨터 제어 파이프라인에 넣으면 전 세대 mini보다 낮은 성능이 나옵니다. 이 두 가지만 피하면 GPT-5.4 mini는 비용 대비 꽤 실용적인 선택입니다.

솔직히 말하면, “Free도 Thinking 됩니다”라는 홍보 문구가 조금 아쉽습니다. 모델 선택기에 없고 폴백 방식이라는 조건을 같이 강조했으면 더 좋았을 것 같습니다. 쓰기 전에 공식 릴리스 노트를 한 번쯤 직접 읽어보시는 걸 권장합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — GPT-5.4 mini 및 nano 출시 발표
    https://openai.com/ko-KR/index/introducing-gpt-5-4-mini-and-nano/
  2. OpenAI Help Center — 모델 출시 노트 (2026.03.18 업데이트)
    https://help.openai.com/ko-kr/articles/9624314-model-release-notes
  3. Adam Holter — GPT-5.4 Mini and Nano: Benchmarks, Pricing, and What They’re Good For (2026.03.18)
    https://adam.holter.com/gpt-5-4-mini-and-nano-benchmarks-pricing-and-what-theyre-actually-good-for/

본 포스팅은 2026년 3월 21일 기준으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
최신 정보는 OpenAI 공식 홈페이지에서 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기