GPT-5.4 mini, 싸진 게 아닌 이유 있습니다

Published on

in

GPT-5.4 mini, 싸진 게 아닌 이유 있습니다

2026.03.24 기준 / GPT-5.4 mini 출시일 2026.03.17 기준

3월 17일 OpenAI가 출시한 GPT-5.4 mini·nano — 공식 발표문에 담긴 벤치마크 수치를 그대로 따라가 보니 예상과 다른 그림이 나왔습니다. “AI가 계속 저렴해지고 있다”는 말이 이번엔 그대로 적용되지 않습니다.

🚀 mini 속도: GPT-5 mini 대비 3배↑
💸 mini 가격: 이전 세대 대비 3배↑
⚠️ nano OSWorld: 이전 세대보다 낮음

GPT-5.4 mini·nano, 뭐가 달라졌나

GPT-5.4 miniGPT-5.4 nano는 2026년 3월 17일 OpenAI가 공개한 경량 모델입니다. GPT-5.4 mini는 코딩·추론·멀티모달·도구 사용 전반에서 이전 세대 GPT-5 mini를 크게 뛰어넘으면서 속도도 2배 이상 빨라졌다는 게 공식 발표의 요지입니다. (출처: OpenAI 공식 블로그, 2026.03.17)

두 모델의 포지셔닝은 명확하게 나뉩니다. mini는 ChatGPT·Codex·API 모두에서 쓸 수 있고, nano는 API 전용입니다. ChatGPT Free·Go 사용자는 Thinking 기능(+ 메뉴 → ‘잘 생각하기’)을 통해 mini를 무료로 사용할 수 있습니다. nano는 UI 없이 API로만 붙여야 합니다.

▲ 표1. GPT-5.4 mini·nano 기본 스펙 (출처: OpenAI 공식 블로그, 2026.03.17)
항목 GPT-5.4 mini GPT-5.4 nano
사용 가능 플랫폼 ChatGPT / Codex / API API 전용
컨텍스트 창 40만 토큰 공식 미공개
API 입력 가격(1M 토큰) $0.75 $0.20
API 출력 가격(1M 토큰) $4.50 $1.25
Codex 쿼터 소비 GPT-5.4 대비 30% Codex 미지원

▲ 목차로 돌아가기

속도는 진짜 3배 빨라졌습니다 — 수치로 확인

공식 발표에서 “GPT-5 mini 대비 2배 이상 빠르다”고 했는데, API 실측치는 그보다 더 큰 차이를 보입니다. GPT-5.4 mini는 초당 약 180~190 토큰, nano는 약 200 토큰을 기록했습니다. 이전 세대 GPT-5 mini가 기본 설정에서 초당 55~60 토큰이었으니, 같은 가격대에서 속도만 따지면 3배 이상 빨라진 셈입니다. (출처: wikidocs HN 분석, 2026.03.17 기준 API 실측)

에이전트 파이프라인에서 이 차이가 왜 중요한지는 간단한 계산으로 확인됩니다. 모델 호출이 100번 이뤄지는 파이프라인에서, 한 번에 200 토큰짜리 응답을 생성할 때 GPT-5 mini(60 tok/s)는 약 333초가 걸립니다. GPT-5.4 mini(185 tok/s)는 같은 100회에 108초. 결과적으로 전체 파이프라인 처리 시간이 225초 줄어듭니다. 실시간 서비스 체감 품질이 달라지는 수준입니다.

경쟁 모델과 비교하면 더 선명해집니다. Google Gemini 3.1 Flash가 약 130 tok/s인 것을 감안하면, 소형 모델 속도 경쟁에서 현재 OpenAI가 앞서 있습니다. 단, 속도 수치는 API 부하 상태·프롬프트 길이에 따라 달라질 수 있습니다.

💡 공식 발표문과 API 실측치를 같이 놓고 보니 이런 차이가 보였습니다

공식 발표는 “GPT-5 mini 대비 2배+”라고 했지만, API 실측 기준 초당 토큰 수로 환산하면 3배를 넘습니다. 공식 수치는 레이턴시 기준이고, 실측치는 처리량(throughput) 기준이라 수치가 다르게 보이는 겁니다. 같은 “2배 빠름”이라도 어떤 지표인지를 먼저 확인해야 합니다.

▲ 목차로 돌아가기

가격표 뒤집어 보면 보이는 것

“AI는 계속 싸지고 있다”는 말을 그대로 믿고 접근하면 예산 계획이 틀어질 수 있습니다. 솔직히 말하면, 이번 mini·nano는 이전 세대 같은 이름 모델 대비 절대 가격이 올랐습니다.

▲ 표2. 세대별 경량 모델 입력 가격 비교 (출처: OpenAI API Docs / wikidocs HN 분석, 2026.03.17)
모델 입력 $(/1M) 출력 $(/1M) 이전 세대 대비
GPT-5.4 mini (신규) $0.75 $4.50 입력 3배↑
GPT-5 mini (이전) $0.25 $2.00 기준
GPT-5.4 nano (신규) $0.20 $1.25 입력 4배↑
GPT-5 nano (이전) $0.05 $0.40 기준

예를 들어 입력 1,000만 토큰·출력 300만 토큰을 한 달에 처리한다고 하면, GPT-5 mini 기준으로는 입력 $2.50 + 출력 $6.00 = 월 $8.50이었던 게, GPT-5.4 mini로 바꾸면 입력 $7.50 + 출력 $13.50 = 월 $21.00이 됩니다. 단순 교체만으로 월 비용이 2.5배 늘어납니다. 성능 개선으로 재시도 횟수가 줄어드는 효과를 감안해도, 분류·태깅 같은 단순 반복 작업에서는 이 차이를 상쇄하기 어렵습니다.

▲ 목차로 돌아가기

nano가 이전 세대보다 느린 벤치마크가 있습니다

막상 벤치마크 표를 가로로 읽어보면 불편한 숫자가 눈에 걸립니다. OSWorld-Verified(컴퓨터 GUI 조작 능력 측정) 항목에서 GPT-5.4 nano는 39.0%를 기록했는데, 이전 세대인 GPT-5 mini는 42.0%였습니다. 신제품이 구제품보다 낮은 수치를 보인 겁니다. (출처: OpenAI 공식 발표 벤치마크 테이블, 2026.03.17)

💡 발표 자료의 벤치마크 표를 세로가 아니라 가로로 읽으니 보이지 않던 수치가 보였습니다

OpenAI 발표문은 “nano가 GPT-5 nano 대비 크게 향상됐다”고 강조합니다. 틀린 말은 아닙니다. 하지만 같은 표에서 nano와 GPT-5 mini를 가로로 놓고 보면 OSWorld 항목만큼은 역전이 발생합니다. nano를 “저렴한 컴퓨터 사용 에이전트 서브태스크용”으로 선택하려는 분들은 이 수치가 결정에 직접 영향을 줍니다.

왜 이런 일이 생기는지 OpenAI가 공식 이유를 밝히지 않았습니다. 다만 OSWorld는 실제 화면 캡처를 해석하고 클릭·입력을 수행하는 CUA(Computer-Using Agent) 능력을 측정하는데, nano의 경량 아키텍처가 이 과제에서 요구하는 시각적 맥락 파악에 bottleneck을 만들 가능성이 있습니다.

반면 mini는 같은 OSWorld에서 72.1%로, 인간 기준선인 72.4%에 통계적으로 무의미한 차이까지 좁혔습니다. 불과 1년 전 SOTA 모델들이 30~40%대에 머물렀던 것을 생각하면, mini의 이 수치는 놀라운 수준입니다. 하지만 nano는 같은 세대 모델임에도 37%p 낮습니다. 컴퓨터 사용 태스크라면 nano보다 mini가 맞습니다.

▲ 표3. OSWorld·CUA 관련 주요 벤치마크 비교 (출처: OpenAI 공식 벤치마크, 2026.03.17)
벤치마크 GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
OSWorld-Verified 75.0% 72.1% 39.0% ⚠️ 42.0%
SWE-Bench Pro 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 75.1% 60.0% 46.3% 38.2%
GPQA Diamond 93.0% 88.0% 82.8% 81.6%

⚠️ nano의 OSWorld 수치(39%)가 GPT-5 mini(42%)보다 낮은 것은 공식 벤치마크에 그대로 기재된 수치입니다.

▲ 목차로 돌아가기

긴 문서 처리, 생각보다 많이 다릅니다

▲ 표4. Long Context 정확도 비교 — MRCR v2 (출처: OpenAI 공식 벤치마크, 2026.03.17)
구간 GPT-5.4 GPT-5.4 mini GPT-5.4 nano
64K~128K 토큰 구간 86.0% 47.7% 44.2%
128K~256K 토큰 구간 79.3% 33.6% ⚠️ 33.1% ⚠️

128K~256K 토큰 구간에서 GPT-5.4는 79.3%를 유지하는 반면, mini는 33.6%로 절반 이하로 떨어집니다. 컨텍스트 창이 40만 토큰이라고 해도, 실제 긴 문서에서 특정 정보를 정확하게 찾아야 하는 작업에서는 mini와 GPT-5.4 사이에 2.4배 차이가 납니다.

대용량 코드베이스 분석이나 긴 계약서 리뷰, 장시간 대화 히스토리를 기반으로 한 분석처럼 128K 토큰을 초과하는 컨텍스트가 필요한 작업이라면, mini로 교체하는 것보다 GPT-5.4를 그대로 쓰는 쪽이 정확도 면에서 낫습니다. 비용을 아끼려다 결과 품질이 크게 떨어질 수 있습니다.

▲ 목차로 돌아가기

실제로 어디에 써야 손해가 없나

정리해 보면, GPT-5.4 mini와 nano는 잘 맞는 곳에 쓰면 강력하고, 잘못된 곳에 쓰면 이전 세대보다 더 비싼 값에 낮은 결과를 받는 경우가 생깁니다.

✅ mini가 진짜 빛나는 경우

코딩 에이전트 서브태스크, 컴퓨터 사용(GUI 조작), 멀티모달 스크린샷 처리처럼 짧은 컨텍스트에서 빠른 응답이 반복적으로 필요한 워크플로우에서 mini는 거의 GPT-5.4 수준을 내면서 쿼터는 30%만 씁니다. Codex 환경에서 복잡한 계획은 GPT-5.4가 세우고, 반복적인 코드 검색·파일 리뷰는 mini 서브에이전트에게 넘기는 구조가 현재 가장 효율적인 운영 방식입니다. (출처: OpenAI Codex 공식 문서, 2026.03.17)

⚠️ nano를 쓸 때 반드시 조심해야 할 함정

nano는 분류·데이터 추출·랭킹 같은 단순 작업에 최적화돼 있습니다. 그런데 에이전트 파이프라인에서 nano를 하위 에이전트로 쓸 때 자주 나타나는 실수가 있습니다. 상위 오케스트레이터가 전체 메시지 히스토리를 그대로 nano에게 넘기는 경우입니다. 이러면 “저렴하다”고 선택한 nano가 3~5만 토큰의 불필요한 컨텍스트를 처리하게 돼, 비용과 속도 이점을 스스로 깎아먹습니다. (출처: wikidocs HN 개발자 실사용 피드백, 2026.03.17)

nano의 실익이 나오는 구간은 입력 컨텍스트를 짧게 정제해서 넘길 수 있는 경우에 한정됩니다. 실측 기준으로 nano의 비용 절감 효과가 확실히 나타나는 임계 컨텍스트 크기에 대한 공개 데이터는 아직 없습니다.

❌ mini·nano보다 GPT-5.4가 맞는 경우

128K 토큰을 넘는 긴 문서 처리, 코딩 에이전트에서 한 번에 긴 추론이 필요한 작업(SWE-Bench 기준 mini의 high effort는 254초, 반면 GPT-5.4 full의 low effort는 171초), 그리고 컴퓨터 사용 에이전트의 하위 태스크로 nano를 쓰려는 경우(OSWorld 39% < GPT-5 mini 42%)에는 mini·nano가 최선이 아닙니다. (출처: OpenAI 공식 벤치마크 및 wikidocs 분석, 2026.03.17)

▲ 목차로 돌아가기

Q&A 5가지

Q1. ChatGPT 무료 사용자가 GPT-5.4 mini를 쓸 수 있나요?
네, Free·Go 플랜 사용자도 ChatGPT의 + 메뉴 → ‘잘 생각하기’ 옵션을 선택하면 GPT-5.4 mini 기반 Thinking 기능을 사용할 수 있습니다. Plus 이상 사용자는 GPT-5.4 Thinking 한도 초과 시 자동으로 GPT-5.4 mini가 대체 모델로 적용됩니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Q2. nano는 ChatGPT에서 쓸 수 없나요?
맞습니다. GPT-5.4 nano는 현재 API 전용이며, ChatGPT나 Codex 환경에서는 사용할 수 없습니다. 분류·추출·랭킹처럼 API로 대량 처리하는 백엔드 워크로드에 적합합니다. (출처: OpenAI 공식 블로그, 2026.03.17)
Q3. GPT-5.4 mini를 쓰면 Codex 쿼터가 얼마나 절약되나요?
Codex에서 GPT-5.4 mini는 GPT-5.4 쿼터의 30%만 소비합니다. 같은 쿼터로 3.3배 더 많은 작업을 처리할 수 있는 셈입니다. 단, 복잡한 계획·판단 작업은 여전히 GPT-5.4가 맡는 것이 정확도 면에서 유리합니다. (출처: OpenAI Codex 공식 문서, 2026.03.17)
Q4. nano가 GPT-5 mini보다 OSWorld 성능이 낮은 게 OpenAI의 실수 아닌가요?
OpenAI가 공식적으로 이 차이에 대한 이유를 별도로 밝히지 않았습니다. nano는 처음부터 컴퓨터 사용(CUA) 태스크가 주 목적이 아니라 분류·추출·랭킹용으로 포지셔닝된 모델입니다. OSWorld 수치가 낮다는 건 “설계 목적 밖의 태스크에서 기대치를 낮춰야 한다”는 신호로 읽는 것이 자연스럽습니다.
Q5. Gemini 3.1 Flash나 Claude Haiku 4.5와 비교했을 때 가격은 어떤가요?
API 입력 기준으로 GPT-5.4 mini($0.75/1M)는 Claude Haiku 4.5($1.00/1M)보다 저렴하지만, Gemini 3.1 Flash($0.50/1M)보다는 비쌉니다. nano($0.20/1M)는 Gemini 3.1 Flash-Lite($0.25/1M)보다도 저렴해, 순수 비용 기준으로는 현재 OpenAI 라인업 중 가장 경쟁력 있는 가격입니다. (출처: simonwillison.net 가격 비교, 2026.03.17)

▲ 목차로 돌아가기

마치며 — 총평

하지만 “경량 모델 = 저렴한 모델”이라는 전제는 이번에 성립하지 않습니다. GPT-5 mini에서 GPT-5.4 mini로 그대로 교체하면 API 비용이 3배 올라갑니다. nano 역시 이전 세대 nano보다 4배 비쌉니다. 그리고 nano는 컴퓨터 사용 태스크에서 GPT-5 mini보다 성능이 낮고, mini는 128K 토큰을 넘는 구간에서 정확도가 절반 이하로 떨어집니다.

결론적으로, mini·nano가 빛나는 건 짧은 컨텍스트·빠른 반복 호출·Codex 서브에이전트 이 세 가지 조건이 맞아 떨어질 때입니다. 그 바깥에서는 기대와 다른 결과를 받을 수 있습니다. “어디에 쓸 건지”를 먼저 따져보는 게, 새 모델이 나올 때마다 더 중요해지고 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano (2026.03.17)
    https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
  2. OpenAI 공식 블로그 (한국어) — GPT-5.4 mini 및 nano 출시 (2026.03.17)
    https://openai.com/ko-KR/index/introducing-gpt-5-4-mini-and-nano/
  3. Simon Willison — GPT-5.4 mini and nano, which can describe 76,000 photos for $52 (2026.03.17)
    https://simonwillison.net/2026/Mar/17/mini-and-nano/
  4. wikidocs — GPT-5.4 Mini와 Nano, 소형 모델이 프론티어를 재정의하다 (2026.03.17)
    https://wikidocs.net/blog/@jaehong/9441/
  5. OpenAI Developers — Codex Subagents 공식 문서
    https://developers.openai.com/codex/subagents/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 모든 가격·벤치마크 수치는 2026년 3월 17일 OpenAI 공식 발표 기준이며, 이후 업데이트로 내용이 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기