GPT-5.4 mini, 빠르다고요? 이 조건 먼저 보세요

Published on

in

GPT-5.4 mini, 빠르다고요? 이 조건 먼저 보세요

2026.03.17 출시 기준 / GPT-5.4 mini & nano

GPT-5.4 mini, 빠르다고요?
이 조건 먼저 보세요

결론부터 말씀드리면, mini는 거의 모든 벤치마크에서 플래그십 GPT-5.4를 3~5%p 차이로 추격합니다. 그런데 긴 문맥 테스트에서는 얘기가 완전히 달라집니다. nano는 더합니다. 공식 수치로 직접 확인했습니다.

⚡ GPT-5 mini 대비 2배 이상 빠름
💰 입력 $0.75/1M tokens
📋 400K 컨텍스트 윈도우

GPT-5.4 mini는 정확히 무엇인가

OpenAI가 2026년 3월 17일 공개한 GPT-5.4 mini와 nano는, 단순한 경량 버전이 아닙니다. 기존 GPT-5 mini를 대체하는 새 세대 소형 모델로, 코딩·툴 사용·멀티모달 추론·에이전트 서브태스크 처리에 특화해 설계됐습니다. (출처: OpenAI 공식 릴리스, 2026.03.17)

GPT-5.4 mini는 API, Codex, ChatGPT 세 곳에서 사용할 수 있습니다. 반면 GPT-5.4 nano는 API 전용으로만 제공됩니다. ChatGPT 앱에서 nano를 직접 선택할 수 없다는 점은 많은 사람이 놓치는 부분입니다.

공식 발표문에는 이런 문장이 있습니다. “최고의 모델은 항상 가장 큰 모델이 아니라, 빠르게 반응하고 툴을 안정적으로 쓰며 복잡한 전문 작업도 잘 수행하는 모델이다.” 맞는 말이지만, ‘어느 조건에서’라는 단서가 빠져 있습니다.

▲ 목차로 돌아가기

공식 벤치마크 수치 해부

OpenAI가 공개한 수치를 직접 정리하면 이렇습니다. 코딩 벤치마크 SWE-Bench Pro에서 GPT-5.4 mini는 54.4%, GPT-5.4 nano는 52.4%, 구형 GPT-5 mini는 45.7%입니다. 플래그십 GPT-5.4는 57.7%고요. mini와 플래그십의 차이가 3.3%p밖에 안 됩니다. (출처: OpenAI 공식 벤치마크, 2026.03.17)

벤치마크 GPT-5.4 5.4 mini 5.4 nano GPT-5 mini
SWE-Bench Pro (코딩) 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 75.1% 60.0% 46.3% 38.2%
GPQA Diamond (추론) 93.0% 88.0% 82.8% 81.6%
OSWorld-Verified (컴퓨터 사용) 75.0% 72.1% 39.0% 42.0%

출처: OpenAI 공식 블로그 (openai.com/index/introducing-gpt-5-4-mini-and-nano, 2026.03.17)

코딩과 추론에서는 mini가 플래그십을 3~5%p 간격으로 따라붙는 수준입니다. 하지만 Terminal-Bench 2.0에서는 15%p가 벌어지고, nano는 컴퓨터 사용 영역에서 플래그십 대비 36%p 폭락합니다. 같은 5.4 패밀리인데 nano를 컴퓨터 사용 에이전트로 쓰면 결과가 크게 달라집니다.

💡 OpenAI가 발표한 그래프의 Y축은 35%에서 시작합니다. 0부터 시작하면 모델 간 격차가 훨씬 좁아 보입니다. 수치만 보면 인상적이지만, 시각화가 차이를 과장하고 있다는 점은 짚어둬야 합니다. (출처: DataCamp 분석, 2026.03.17)

▲ 목차로 돌아가기

긴 문맥에서 무너지는 이유가 있습니다

GPT-5.4 mini의 컨텍스트 윈도우는 400K 토큰입니다. 숫자만 보면 충분해 보이지만, 공식 장문 맥락 테스트 결과는 다릅니다. OpenAI MRCR v2 8-needle 64K~128K 구간에서 GPT-5.4가 86.0%를 기록할 때, mini는 47.7%에 그쳤습니다. 플래그십의 절반 수준입니다. (출처: OpenAI 공식 벤치마크, 2026.03.17)

장문 맥락 테스트 GPT-5.4 5.4 mini 5.4 nano
MRCR v2 8-needle 64K~128K 86.0% 47.7% 44.2%
MRCR v2 8-needle 128K~256K 79.3% 33.6% 33.1%
Graphwalks BFS 0K~128K 93.1% 76.3% 73.4%

출처: OpenAI 공식 벤치마크 테이블 (openai.com, 2026.03.17)

128K~256K 구간에서는 mini가 33.6%까지 내려앉습니다. 플래그십(79.3%) 대비 절반에도 못 미칩니다. 대용량 코드베이스 전체를 컨텍스트에 넣고 리뷰하거나, 수십 페이지짜리 계약서를 분석하는 작업에 mini를 선택하면 실제 출력 품질이 기대와 달라질 수 있습니다.

💡 공식 발표문과 벤치마크 표를 같이 놓고 보니 이런 차이가 보였습니다. mini가 코딩·추론에서 플래그십을 따라잡는 것처럼 보이지만, 128K 이상 장문 맥락만큼은 그 차이가 2배 이상 벌어집니다. 빠른 속도를 취하는 대신 장문 처리 능력을 상당 부분 포기한 구조입니다.

▲ 목차로 돌아가기

nano가 더 싸다는 말, 함정이 있습니다

GPT-5.4 nano의 API 가격은 입력 $0.20/1M 토큰, 출력 $1.25/1M 토큰입니다. mini($0.75/$4.50)보다 확실히 저렴합니다. 그런데 Hacker News에서 실제로 속도를 측정한 개발자의 수치가 흥미롭습니다. 출시 당일 API 기준으로 GPT-5.4 mini는 초당 약 180~190 토큰, nano는 약 200 토큰을 처리했습니다. 속도 차이는 크지 않습니다. (출처: Hacker News 실측, 2026.03.17)

문제는 nano가 컴퓨터 사용(CUA) 벤치마크에서 39%를 기록한다는 점입니다. 구형 GPT-5 mini(42%)보다도 낮습니다. 비용을 아끼려고 nano를 선택했다가 화면 스크린샷 해석이나 UI 자동화 작업에서 실패율이 올라가면, 오히려 재시도 비용이 늘어납니다. 저렴한 가격이 항상 저렴한 총비용을 의미하지는 않습니다.

모델 입력 ($/1M) 출력 ($/1M) 컨텍스트 CUA 점수
GPT-5.4 $2.50 $15.00 200K 75.0%
GPT-5.4 mini $0.75 $4.50 400K 72.1%
GPT-5.4 nano $0.20 $1.25 400K 39.0%
Claude Haiku 4.5 $1.00 $5.00 50.7%*

출처: OpenAI 공식 API 가격 페이지 (openai.com/api/pricing, 2026.03.17), DataCamp 비교 분석 (2026.03.17) / *OSWorld 표준, GPT-5.4 nano는 OSWorld-Verified(더 어려운 테스트) 기준

또 한 가지. GPT-5.4 mini는 GPT-5 mini 대비 약 3배 비쌉니다. (GPT-5 mini 기준 약 $0.25/1M 입력 대비) 성능 향상이 비용 인상을 정당화하는지는 작업 유형에 따라 다릅니다. (출처: Hacker News 사용자 비교, 2026.03.17)

▲ 목차로 돌아가기

ChatGPT에서 접근 방식이 요금제마다 다릅니다

GPT-5.4 mini를 ChatGPT에서 쓰는 방법이 요금제별로 다르다는 점은 공식 발표문에 적혀 있지만, 많은 사람이 그냥 지나칩니다. Free·Go 요금제 사용자는 + 메뉴의 ‘Thinking’ 옵션을 통해 GPT-5.4 mini를 기본 추론 모델로 이용할 수 있습니다. (출처: OpenAI 공식 릴리스, 2026.03.17)

반면 Plus·Pro·Team·Enterprise 사용자는 GPT-5.4 mini가 GPT-5.4 Thinking의 사용량 한도를 소진했을 때 자동으로 전환되는 폴백(fallback) 모델로만 작동합니다. 즉, 직접 선택해서 쓰는 모델이 아니라, 한도 초과 시 자동 대체 모델입니다. 실제로 결제를 하고 있는데도 생각보다 낮은 성능의 응답을 받는 이유가 여기에 있을 수 있습니다.

GPT-5.4 nano는 ChatGPT 어디에도 노출되지 않습니다. API 전용입니다. ChatGPT 앱에서 nano를 선택하는 방법은 현재 없고, OpenAI가 별도 이유를 밝히지 않았습니다.

▲ 목차로 돌아가기

같은 가격대 경쟁 모델과 직접 비교하면

Hacker News에 올라온 실측 속도 데이터와 공식 가격을 교차해보면, 경쟁 구도가 좀 더 선명해집니다. 출시 당일 GPT-5.4 mini는 초당 180~190 토큰, nano는 200 토큰 수준이었습니다. Gemini 3 Flash는 같은 시점에 Gemini API에서 초당 약 130 토큰, Vertex에서 약 120 토큰이었습니다. 원시 속도(raw tokens/s) 기준으로는 GPT-5.4 mini가 Gemini 3 Flash보다 40% 이상 빠릅니다. (출처: Hacker News 개발자 실측, 2026.03.17)

💡 실측 속도와 가격표를 같이 놓고 보면, GPT-5.4 nano($0.20/1M)는 Claude Haiku 4.5($1.00/1M)보다 5배 저렴하면서 GPQA Diamond에서 9.8%p 앞섭니다. 단순한 분류·추출·랭킹 작업에서 비용 효율이 가장 높은 선택지가 될 수 있습니다. 다만 컴퓨터 사용 에이전트에는 쓰지 말 것.

Claude Haiku 4.5와의 코딩 비교는 벤치마크 버전이 달라 직접 비교가 어렵습니다. Haiku 4.5는 SWE-bench Verified에서 73.3%를 기록했고, GPT-5.4 nano는 더 어려운 SWE-bench Pro(Public)에서 52.4%를 받았습니다. 어느 쪽이 더 잘하는지는 공식적으로 아직 같은 조건에서 검증된 바 없습니다. (출처: DataCamp 분석, 2026.03.17)

Codex에서는 GPT-5.4 mini가 플래그십 GPT-5.4 할당량의 30%만 소모합니다. 플래그십을 3번 쓸 비용으로 mini를 10번 쓸 수 있다는 뜻입니다. 단순 파일 검색·PR 초안·코드 리뷰처럼 반복 호출이 많은 서브태스크는 mini로 돌리고, 최종 판단만 플래그십에 맡기는 구조가 실질적으로 유리합니다. (출처: OpenAI 공식 릴리스, 2026.03.17)

▲ 목차로 돌아가기

어떤 작업에 써야 하고 어디서 멈춰야 하나

정리하면 이렇습니다. GPT-5.4 mini는 코딩 서브에이전트, 스크린샷 기반 UI 자동화, 멀티모달 빠른 질의에 적합합니다. 128K 토큰 이하의 컨텍스트에서 플래그십에 근접한 성능을 내면서 속도는 2배 이상 빠릅니다. Hebbia CTO의 평가도 비슷합니다. “GPT-5.4 mini가 여러 출력 작업과 인용 재현에서 경쟁 모델과 대등하거나 앞섰고, 플래그십 GPT-5.4보다 높은 엔드-투-엔드 통과율을 보인 사례도 있었다.” (출처: ZDNET, 2026.03.17, Hebbia CTO 인터뷰)

반면 멈춰야 할 지점도 분명합니다. 대용량 문서 전체 분석, 코드베이스 전체 참조 리뷰처럼 128K 이상 토큰을 다루는 작업에서 mini를 선택하면 출력 품질이 눈에 띄게 떨어집니다. nano는 컴퓨터 사용 에이전트에서 아예 쓰지 않는 게 낫습니다. 39%라는 수치는 이 영역에서 nano가 설계 목적 밖이라는 뜻입니다.

✅ mini가 유리한 경우

코딩 서브에이전트 / 스크린샷 UI 자동화 / 멀티모달 빠른 질의 / 128K 이하 컨텍스트 반복 호출

⛔ mini를 피해야 하는 경우

대용량 코드베이스 전체 분석 / 128K 이상 장문 계약서·보고서 처리 / 정밀한 장거리 문맥 추적

⛔ nano를 피해야 하는 경우

컴퓨터 사용(CUA) / UI 스크린샷 해석 / 복잡한 멀티스텝 에이전트 작업

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. GPT-5.4 mini를 무료로 쓸 수 있나요?

ChatGPT Free 요금제에서 + 메뉴의 Thinking 옵션을 선택하면 GPT-5.4 mini를 기본 추론 모델로 이용할 수 있습니다. 단, 무료 계정에는 사용량 제한이 있고, 한도 소진 후엔 더 가벼운 모델로 전환됩니다. (출처: OpenAI 공식 릴리스, 2026.03.17)

Q2. GPT-5.4 nano와 mini, 실제 속도 차이가 클까요?

출시 당일 API 실측 기준으로 mini는 초당 180~190 토큰, nano는 약 200 토큰이었습니다. 원시 토큰 처리 속도 차이는 크지 않습니다. 다만 OpenAI가 발표한 레이턴시 수치는 실제 프로덕션 측정이 아닌 시뮬레이션 기반 추정치라는 점을 감안해야 합니다. (출처: Hacker News 실측, 2026.03.17; OpenAI 공식 노트, 2026.03.17)

Q3. Codex에서 mini를 쓰면 얼마나 아낄 수 있나요?

Codex 기준으로 GPT-5.4 mini는 플래그십 GPT-5.4 할당량의 30%만 소모합니다. 동일한 비용으로 플래그십 대비 약 3.3배 더 많이 호출할 수 있습니다. 단순 파일 검색·PR 초안 같은 반복 작업을 mini로 돌리고 최종 판단만 플래그십에 맡기는 방식이 실질적으로 유리합니다. (출처: OpenAI 공식 릴리스, 2026.03.17)

Q4. GPT-5.4 nano를 컴퓨터 사용 에이전트에 써도 되나요?

권장하지 않습니다. OSWorld-Verified 기준으로 nano의 점수는 39.0%로, 구형 GPT-5 mini(42.0%)보다도 낮습니다. OpenAI 공식 문서에서도 nano는 분류·데이터 추출·랭킹·간단한 코딩 서브에이전트 용도로 명시하고 있습니다. 컴퓨터 사용 에이전트는 mini 이상을 선택하는 게 맞습니다. (출처: OpenAI 공식 릴리스, 2026.03.17)

Q5. GPT-5.4 mini가 플래그십보다 나은 경우도 있나요?

실제 사례가 있습니다. Hebbia CTO는 특정 출력 작업과 인용 재현 평가에서 GPT-5.4 mini가 플래그십 GPT-5.4보다 높은 엔드-투-엔드 통과율을 기록한 경우가 있었다고 밝혔습니다. 빠른 반복이 중요한 작업에서 플래그십의 추가 연산이 오히려 노이즈가 되는 경우입니다. (출처: ZDNET 인용, Hebbia CTO 발언, 2026.03.17)

▲ 목차로 돌아가기

마치며 — 총평

GPT-5.4 mini는 분명 잘 만든 소형 모델입니다. 코딩과 추론에서 플래그십을 3~5%p 차이로 따라가면서 2배 이상 빠른 건 인상적입니다. 그런데 128K 이상 장문 맥락에서 성능이 절반으로 떨어진다는 공식 수치는 릴리스 노트 어딘가에 조용히 묻혀 있습니다.

nano는 저렴함이 강점이지만, 컴퓨터 사용 에이전트로는 쓰면 안 됩니다. 39%라는 수치가 그걸 말해줍니다. 두 모델 모두 ‘모든 작업을 커버하는 저렴한 대안’이 아니라, 특정 작업에 집중할 때 가장 빛나는 선택지입니다. 작업 유형을 먼저 파악하고 모델을 고르는 순서가 맞습니다. 반대로 하면 벤치마크와 실제 경험 사이의 간극이 생깁니다.

📚 본 포스팅 참고 자료

  1. OpenAI 공식 릴리스 — Introducing GPT-5.4 mini and nano (2026.03.17)
  2. OpenAI API 공식 가격 페이지
  3. ZDNET — OpenAI launches GPT-5.4 mini and nano (2026.03.17)
  4. DataCamp — GPT-5.4 mini and nano: Benchmarks, Access, and Reactions (2026.03.17)
  5. Hacker News — GPT-5.4 mini and nano 실측 토큰 속도 및 개발자 반응 (2026.03.17)

본 포스팅 작성 이후 OpenAI 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 최신 정보는 반드시 공식 사이트에서 확인하세요. IT/AI 서비스 특성상 모델 스펙·가격은 업데이트 없이 바뀔 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기