GPT-5.4 mini, 빠르다고요? 이 조건에서만 맞습니다

Published on

in

GPT-5.4 mini, 빠르다고요? 이 조건에서만 맞습니다

2026.03.18 기준
GPT-5.4 mini 공식 출시
OpenAI 공식 발표 기준

GPT-5.4 mini, 빠르다고요?
이 조건에서만 맞습니다

2026년 3월 18일, OpenAI가 GPT-5.4 mini와 nano를 동시에 출시했습니다. “가장 강력한 소형 모델”이라는 수식어가 붙었고, Free 티어에서도 쓸 수 있다는 점이 화제입니다. 그런데 공식 벤치마크를 꼼꼼히 보면, 빠르고 저렴하다는 게 모든 상황에 해당하지는 않습니다.

2x+
GPT-5 mini 대비 속도
72.1%
OSWorld 컴퓨터 사용 점수
$0.75
입력 1M 토큰당 API 가격
33.6%
장문(128K-256K) 처리 성능

GPT-5.4 mini가 정확히 뭔가요? — 출시 배경부터

(출처: OpenAI 공식 발표, 2026.03.17)

기존의 소형 모델들은 그냥 비싼 모델을 작게 줄인 버전이었습니다. 그런데 GPT-5.4 mini는 OpenAI가 공식 발표에서 “서브에이전트 역할에 특화된 실행 모델”이라고 직접 표현했습니다. 쉽게 말해, 혼자 다 하는 모델이 아니라 큰 모델이 지시를 내리고 mini가 빠르게 실행하는 구조에 맞춰 설계됐다는 뜻입니다. 모델 설계 철학 자체가 달라진 겁니다.

(출처: OpenAI 공식 발표, 2026.03.17)

▲ 목차로 돌아가기

Free 티어도 쓸 수 있는데, 방법이 숨어 있습니다

💡 공식 릴리스노트와 실제 ChatGPT 화면 흐름을 같이 놓고 보니, “Free에서도 Thinking 쓸 수 있다”는 말이 생각보다 좁은 조건 안에서만 해당한다는 게 보였습니다.

(출처: OpenAI 모델 릴리스노트, 2026.03.18)

Plus·Pro·Team 같은 유료 사용자에게는 그 방식이 또 다릅니다. GPT-5.4 Thinking을 주로 쓰다가 요청 한도에 도달하면 자동으로 GPT-5.4 mini로 대체됩니다. 쉽게 말해, 풀 모델을 다 쓰고 나면 mini로 이어받는 구조입니다. 의도적으로 mini를 선택해서 쓰는 것과 한도 초과 후 자동 전환되는 것은 경험이 다를 수 있습니다.

또 하나, GPT-5 Thinking mini는 30일 뒤 모델 선택기에서 아예 사라집니다. GPT-5.4 mini가 그 자리를 완전히 대체하는 구조입니다.
(출처: OpenAI 공식 릴리스노트, 2026.03.18)

▲ 목차로 돌아가기

공식 수치가 말하는 강점 — 코딩과 컴퓨터 사용

OpenAI가 공개한 벤치마크 중 가장 눈에 띄는 건 OSWorld-Verified 점수입니다. GPT-5.4 mini가 72.1%인데 풀 모델 GPT-5.4가 75.0%입니다. 차이가 2.9%p밖에 안 납니다. 이 항목은 AI가 실제 컴퓨터 화면을 보고 작업을 수행하는 능력을 측정하는 벤치마크입니다. 사람이 마우스로 클릭하고 입력하는 것처럼 AI가 UI를 조작하는 시나리오를 테스트합니다. 플래그십에 거의 근접한다는 게 수치로 나온 셈입니다.
(출처: OpenAI 공식 발표, 2026.03.17)

벤치마크 GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
SWE-Bench Pro 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 75.1% 60.0% 46.3% 38.2%
OSWorld-Verified 75.0% 72.1% 39.0% 42.0%
GPQA Diamond 93.0% 88.0% 82.8% 81.6%
τ2-bench (툴 호출) 98.9% 93.4% 92.5% 74.1%

출처: OpenAI 공식 발표 (2026.03.17), reasoning_effort=xhigh 기준

코딩 벤치마크인 SWE-Bench Pro에서도 mini(54.4%)와 풀 모델(57.7%)의 격차는 3.3%p입니다. 비용이 훨씬 저렴한 모델이 코딩 정확도에서 이 정도 차이라면, 단순 반복 코딩 작업에서 굳이 풀 모델을 쓸 이유가 줄어듭니다.

툴 호출 정확도(τ2-bench)에서 GPT-5.4 mini가 93.4%를 기록했고, GPT-5 mini는 74.1%였습니다. 19.3%p 차이입니다. 에이전트가 툴을 잘못 호출하면 조용히 실패하는 경우가 많기 때문에, 실제 프로덕션 워크플로에서 이 수치는 코딩 점수보다 더 중요하게 작용할 수 있습니다.
(출처: OpenAI 공식 발표, 2026.03.17)

▲ 목차로 돌아가기

장문 처리에서는 풀 모델의 절반도 안 됩니다

💡 코딩 점수만 보면 mini가 플래그십에 거의 붙는다고 보이는데, 장문 추론 수치를 같이 놓으니 완전히 다른 그림이 나왔습니다.

OpenAI가 공개한 장문 처리 벤치마크(MRCR v2, 8-needle)에서 128K~256K 구간을 보면, GPT-5.4 mini의 점수는 33.6%입니다. 풀 모델 GPT-5.4가 79.3%이니까 절반에도 미치지 못합니다. 이 수치가 뭘 의미하냐면, 30만 자가 넘는 긴 문서나 코드베이스 전체를 컨텍스트에 넣고 특정 정보를 정확히 찾아내야 하는 작업에서 mini는 꽤 많이 빠진다는 뜻입니다.
(출처: OpenAI 공식 발표, 2026.03.17)

장문 처리 벤치마크 GPT-5.4 GPT-5.4 mini GPT-5 mini
MRCR v2 64K-128K 86.0% 47.7% 35.1%
MRCR v2 128K-256K 79.3% 33.6% 19.4%
Graphwalks BFS 0-128K 93.1% 76.3% 73.4%

출처: OpenAI 공식 발표 (2026.03.17), reasoning_effort=xhigh 기준

400K 컨텍스트 윈도우를 지원한다고 하지만, 실제로 후반부 컨텍스트까지 정확하게 처리하는 건 별개의 문제입니다. 컨텍스트 윈도우가 크다 = 긴 문서를 넣을 수 있다는 의미이고, 그 안에서 얼마나 정확하게 정보를 끌어내느냐가 실제 성능입니다. mini는 128K를 넘어가면 정확도가 크게 떨어집니다.

결론적으로, 대형 코드베이스 전체 분석이나 긴 계약서 전체 검토처럼 문서 길이 자체가 핵심인 작업에서는 mini를 쓰면 예상보다 많이 빠질 수 있습니다. 이 구간에서는 플래그십 모델을 유지하는 게 맞습니다.

▲ 목차로 돌아가기

가격 비교 — 경쟁 모델과 나란히 놓아봤습니다

API를 쓴다면 가격은 결정적인 변수입니다. GPT-5.4 mini는 입력 1M 토큰당 $0.75, 출력 1M 토큰당 $4.50입니다. 캐시된 입력은 $0.075로 10분의 1 수준입니다. 풀 모델 GPT-5.4가 입력 $2.50 / 출력 $15.00이니까 mini는 풀 모델 대비 입력 기준 약 3.3배 저렴합니다.
(출처: OpenAI API 가격 페이지, 2026.03.17 기준)

모델 입력 (1M 토큰) 캐시 입력 출력 (1M 토큰)
GPT-5.4 $2.50 $0.25 $15.00
GPT-5.4 mini ★ $0.75 $0.075 $4.50
GPT-5.4 nano $0.20 $0.02 $1.25
Claude Sonnet 4.6 $3.00 $15.00
Claude Haiku 4.5 $1.00 $5.00
Gemini 3.1 Flash-Lite $0.25 $1.50

출처: OpenAI API 가격 페이지 및 simonwillison.net (2026.03.17 기준) / GPT-5.4 nano는 Gemini 3.1 Flash-Lite보다 저렴합니다.

Claude Haiku 4.5 대비 입력 기준으로 GPT-5.4 mini가 $0.25 저렴합니다. 같은 소형 모델 경쟁에서 가격 경쟁력은 있는 편입니다. Gemini 3.1 Flash-Lite($0.25)보다는 3배 비싸지만, 코딩·에이전트 성능 차이를 감안하면 단순 비교는 어렵습니다.

실비용 계산을 직접 해보면, 매월 입력 1억 토큰, 출력 3천만 토큰을 처리하는 워크플로라면 GPT-5.4 mini 기준 입력 $75 + 출력 $135 = 약 월 $210입니다. 같은 조건으로 GPT-5.4 풀 모델을 쓰면 입력 $250 + 출력 $450 = 약 월 $700가 됩니다. 월 $490 차이입니다.

▲ 목차로 돌아가기

Codex에서 mini를 30% 쿼터로 쓰는 구조

💡 “30% 쿼터”라는 숫자는 단순 할인 개념이 아니라, 에이전트 설계 패턴 자체를 바꾸는 레버입니다. 공식 발표 문서와 Codex 서브에이전트 구조를 같이 보니 이 점이 명확해졌습니다.

OpenAI 공식 발표에 이렇게 나옵니다. “Codex에서 GPT-5.4 mini는 GPT-5.4 쿼터의 30%만 사용합니다.” 풀 모델을 1회 쓸 비용으로 mini를 3번 이상 쓸 수 있다는 뜻입니다. Codex에서 GPT-5.4가 전체 계획을 세우고, 세부 작업(코드베이스 검색, 대형 파일 리뷰, 문서 처리 등)은 mini 서브에이전트에 병렬로 분배하는 구조가 가능해졌습니다.
(출처: OpenAI 공식 발표, 2026.03.17)

실제로 이 구조를 쓰면 어떤 이점이 있냐면, 메인 모델은 판단과 조율을 맡고 실행은 mini가 병렬로 처리하니 전체 완료 시간이 줄어듭니다. 기존에 풀 모델 하나로 순차 처리하던 걸 mini 여러 개가 동시에 처리하는 방식으로 바뀌는 겁니다. 비용과 속도를 동시에 잡는 구조입니다.

솔직히 말하면, 이 구조가 개인 개발자보다 기업 개발팀에 더 의미가 있습니다. 개인이 Codex를 쓰면 어차피 순차 작업이 대부분이고, 에이전트 파이프라인을 직접 설계하는 경우는 드뭅니다. 하지만 여러 에이전트를 조율하는 구조를 만드는 팀이라면, 이 30% 쿼터 설계가 아키텍처 결정에 실질적인 영향을 줍니다.

▲ 목차로 돌아가기

결국 어느 상황에 쓰면 맞을까

코딩·툴 호출·컴퓨터 사용처럼 작업 범위가 명확하게 정해진 경우라면 GPT-5.4 mini가 맞습니다. 수치 차이가 좁고, 속도는 GPT-5 mini 대비 2배 이상 빠릅니다. API 비용도 플래그십의 3분의 1 수준입니다. 반복 실행이 많은 워크플로라면 비용 절감 효과가 빠르게 체감됩니다.

✅ GPT-5.4 mini가 맞는 상황

  • 코드 생성, 버그 수정, 코드베이스 내 특정 파일 검색
  • 스크린샷 분석이나 UI 조작이 필요한 컴퓨터 사용 작업
  • 툴 호출 기반 에이전트 파이프라인의 실행 단계
  • 분류, 데이터 추출, 순위 결정처럼 범위가 좁은 반복 작업
  • Free 티어에서 Thinking 기능을 통해 추론 능력이 필요할 때

❌ 이 상황에서는 mini로 대체하면 안 됩니다

  • 128K 토큰을 넘는 대형 문서 전체를 정확하게 참조해야 하는 작업
  • 수백 개 파일이 얽힌 코드베이스 전체를 동시에 이해해야 하는 리팩토링
  • 최종 판단과 계획이 필요한 오케스트레이터 역할

(출처: OpenAI 공식 발표, 2026.03.17)

▲ 목차로 돌아가기

Q&A — 자주 묻는 것들

Q1. GPT-5.4 mini를 무료로 쓸 수 있나요?
ChatGPT Free 티어에서도 접근 가능합니다. 단, 모델 선택기에서 직접 고르는 방식이 아니라 + 메뉴 → Thinking 기능을 통해서만 사용할 수 있습니다. 한도가 얼마나 되는지는 OpenAI가 공식 답변을 내놓지 않은 부분입니다.
(출처: OpenAI 모델 릴리스노트, 2026.03.18)
Q2. GPT-5.4 nano와 mini 중 어느 걸 써야 하나요?
단순 분류·추출·순위 결정처럼 정해진 범위 안에서 빠르게 대량 처리가 필요하다면 nano입니다. 코딩 보조, 멀티모달 작업, 툴 호출이 들어간다면 mini가 맞습니다. nano는 API 전용이고 ChatGPT에서는 쓸 수 없습니다.
(출처: OpenAI 공식 발표, 2026.03.17)
Q3. GPT-5.4 mini API 모델 이름(문자열)은 뭔가요?
공식 발표 기준으로 gpt-5.4-mini입니다. nano는 gpt-5.4-nano입니다. 실제 적용 전에 platform.openai.com/docs/models에서 최신 이름을 반드시 확인하세요. 기존 SDK(openai>=1.0.0)와 요청·응답 구조는 하위 호환됩니다.
Q4. GPT-5 mini에서 GPT-5.4 mini로 바꿔야 하나요?
코딩이나 툴 호출 작업이 포함된 워크플로라면 바꾸는 게 낫습니다. SWE-Bench Pro에서 45.7% → 54.4%, τ2-bench에서 74.1% → 93.4%로 오릅니다. 단순 텍스트 분류나 요약처럼 추론 깊이가 낮은 작업이라면 GPT-5 mini와 체감 차이가 크지 않을 수 있고, 가격이 올라가므로 A/B 테스트를 먼저 돌려보는 걸 권장합니다.
Q5. GPT-5.4 mini로 76,000장 사진을 설명하면 얼마나 드나요?
실측 사례가 있습니다. 개발자 Simon Willison이 GPT-5.4 nano로 사진 1장을 설명하는 데 입력 2,751 토큰 + 출력 112 토큰이 들었고, 비용은 약 0.069센트였습니다. 이 기준으로 76,000장 전체는 약 $52.44입니다. mini가 아닌 nano 기준이지만, 이미지당 비용이 센트 이하라는 게 실측으로 확인된 수준입니다.
(출처: simonwillison.net, 2026.03.17)

▲ 목차로 돌아가기

마치며 — 총평

그런데 장문 처리 수치는 직접 확인해두는 게 좋습니다. MRCR v2 128K-256K 구간에서 33.6%라는 수치는, 긴 문서를 다루는 작업에서 mini를 믿고 넣었다가 예상 밖의 결과를 받을 수 있다는 신호입니다. 400K 컨텍스트를 지원한다는 말과, 400K 전체에서 정확하게 작동한다는 말은 다릅니다.

Free 티어에서도 Thinking 기능을 통해 GPT-5.4 mini에 접근할 수 있다는 건 실질적인 변화입니다. 다만 모델 선택기에서 직접 고를 수 없다는 점, 한도 도달 후 자동 전환되는 방식이라는 점은 미리 알아두는 게 좋습니다. 기대했던 것과 방식이 달랐던 부분입니다.

📚 본 포스팅 참고 자료

  1. OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano (2026.03.17)
  2. OpenAI 모델 릴리스노트 — ChatGPT GPT-5.4 mini (2026.03.18)
  3. Simon Willison — GPT-5.4 mini and nano 실측 비용 (2026.03.17)
  4. ZDNET — GPT-5.4 mini and nano launch (2026.03.17)
  5. Beam AI — Multi-model agent architecture 분석 (2026.03.17)

본 포스팅은 2026년 03월 22일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 공식 수치는 OpenAI 발표 시점 기준이며, API 가격·모델명·기능은 언제든 바뀔 수 있습니다. 중요한 결정 전에 platform.openai.com에서 최신 정보를 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기