GPT-5.4 mini · nano
GPT-5.4 mini, 싸다고요?
이 가격 먼저 보세요
GPT-5.4 mini와 nano가 2026년 3월 18일 공식 출시됐습니다. “소형 모델이라 저렴하다”는 인식이 퍼지고 있는데, 공식 가격표를 실제로 열어보니 얘기가 달랐습니다. 전 세대 대비 3~4배 인상된 가격, 속도가 빠른데 오히려 더 오래 걸리는 역설, 경쟁사 모델과의 가격 교차점까지 — 공식 수치로 직접 풀어드립니다.
가격표가 말하지 않는 것 — 전 세대와 실제 비교
GPT-5.4 mini API 가격은 입력 $0.75, 출력 $4.50(100만 토큰 기준)입니다. (출처: OpenAI 공식 API 가격 페이지, 2026.03.18 기준) “플래그십 모델인 GPT-5.4의 $2.50/$15.00보다 훨씬 저렴하다”는 게 공식 메시지입니다.
그런데 직전 세대인 GPT-5 mini와 비교하면 그림이 달라집니다. GPT-5 mini의 입력 가격은 $0.25, 출력은 $2.00이었습니다. GPT-5.4 mini로 오면서 입력이 3배, 출력이 2.25배 뛰었습니다. 단순히 “최신 소형 모델”로만 보고 예산을 짰다가는 API 비용이 예상의 2~3배로 불어납니다.
GPT-5.4 nano는 더 가파릅니다. GPT-5 nano가 $0.05/$0.40이었던 게 $0.20/$1.25로 올랐습니다. 입력 기준 4배, 출력 기준 3.125배 인상입니다. (출처: 나무위키 GPT-5 문서, 2026.03 기준) 물론 성능도 함께 올랐습니다. GPT-5.4 nano가 여러 벤치마크에서 구 GPT-5 mini를 앞서는 결과가 나왔으니, “같은 등급의 후속 모델”이 아니라 “한 단계 위 성능을 한 단계 아래 가격에 파는 모델”로 포지셔닝이 바뀐 겁니다. 절대 가격이 올랐다는 사실은 변하지 않습니다.
💡 공식 가격표와 실제 마이그레이션 비용을 나란히 놓고 보면 이런 차이가 보였습니다
| 모델 | 입력 ($/1M) | 출력 ($/1M) |
|---|---|---|
| GPT-5 mini (구) | $0.25 | $2.00 |
| GPT-5.4 mini (신) | $0.75 (+3배) | $4.50 (+2.25배) |
| GPT-5 nano (구) | $0.05 | $0.40 |
| GPT-5.4 nano (신) | $0.20 (+4배) | $1.25 (+3.125배) |
출처: OpenAI 공식 API 가격 페이지(2026.03.18 기준) / 나무위키 GPT-5 문서
빠르다는 mini가 오히려 느릴 수 있는 상황
GPT-5.4 mini의 응답 속도는 초당 180~190토큰, nano는 약 200토큰입니다. GPT-5 mini가 55~60토큰(우선 처리 옵션을 켜야 115~120토큰)이었던 것에 비해 같은 가격대에서 3배 이상 빠른 수치입니다. (출처: wikidocs 실측 데이터, 2026.03) 대화형 인터페이스에서는 이 차이가 체감으로 직결됩니다.
그런데 코딩 에이전트처럼 한 번에 긴 추론이 필요한 작업에서는 얘기가 뒤집힙니다. SWE-Bench(소프트웨어 엔지니어링 벤치마크)에서 GPT-5.4 mini를 높은 추론 수준(high effort)으로 돌렸을 때 지연 시간이 254초로 측정됐습니다. 같은 조건에서 GPT-5.4 본체의 낮은 추론 수준(low effort)은 171초였습니다. 소형 모델을 높은 추론 강도로 돌리면 플래그십보다 83초 더 걸린다는 뜻입니다. 비용도 아끼고 속도도 빠를 거라는 기대와 정반대입니다.
정확도는 비슷하지만 시간이 더 걸리는 상황이 발생하는 이유는, 소형 모델이 같은 난이도의 문제를 풀 때 더 많은 추론 단계를 거치기 때문입니다. 단순 응답·요약·분류 같은 작업에는 mini가 압도적으로 유리합니다. 하지만 복잡한 멀티스텝 코딩이나 긴 문서 분석처럼 추론 강도를 높여야 하는 작업이라면, 가격이 더 비싸도 GPT-5.4 본체를 low effort로 쓰는 게 실제로는 더 빠를 수 있습니다.
⚡ 작업 유형별 권장 모델 (2026.03.18 기준)
| 작업 유형 | 권장 모델 | 이유 |
|---|---|---|
| 대화·요약·분류 | mini | 속도 3배, 비용 6분의 1 |
| 복잡한 코딩 에이전트 | GPT-5.4 본체 | mini high effort보다 83초 빠름 |
| 대량 실시간 처리 | nano | 초당 200토큰, 최저 비용 |
| 컴퓨터 제어(GUI) | mini (nano 비추천) | nano OSWorld 39% vs mini 72.1% |
GPT-5.4 mini vs Claude Haiku 4.5 vs Gemini Flash — 진짜 가성비는?
소형 모델 가격 경쟁에서 흥미로운 지점이 하나 있습니다. GPT-5.4 nano($0.20/$1.25)가 Claude Haiku 4.5($1.00/$5.00)보다 입출력 모두 저렴합니다. OpenAI가 공개적으로 경쟁사 소형 모델의 가격을 밑돌도록 설정한 셈입니다.
그렇다고 nano가 Haiku 4.5보다 모든 면에서 낫다고 말하기는 어렵습니다. GPQA Diamond(과학적 추론)에서 nano가 9.8% 앞섰고, τ2-bench Telecom에서는 9.5% 앞섰습니다. 반면 OSWorld 컴퓨터 사용 벤치마크에서는 Haiku 4.5가 standard OSWorld에서 50.7%, nano가 더 어려운 OSWorld-Verified에서 39.0%를 기록해 단순 비교가 어렵습니다. (출처: DataCamp GPT-5.4 mini/nano 리포트, 2026.03)
Gemini Flash($0.50/$3.00)와 비교하면 mini가 가격으로는 밀리지만 속도에서 앞섭니다. Gemini Flash가 초당 130토큰 수준인데 mini는 180~190토큰입니다. 속도가 중요한 실시간 스트리밍 서비스라면 mini가 더 나은 선택일 수 있고, 비용 최적화가 우선이라면 Flash Lite($0.25/$1.50)도 고려해볼 만합니다.
📊 소형 모델 가격 비교 (2026.03.27 기준)
| 모델 | 입력 ($/1M) | 출력 ($/1M) | 속도 (tok/s) |
|---|---|---|---|
| GPT-5.4 mini | $0.75 | $4.50 | 약 185 |
| GPT-5.4 nano | $0.20 | $1.25 | 약 200 |
| Claude Haiku 4.5 | $1.00 | $5.00 | — |
| Gemini 3.1 Flash | $0.50 | $3.00 | 약 130 |
| Gemini Flash Lite | $0.25 | $1.50 | — |
출처: OpenAI·Anthropic·Google 공식 API 가격 페이지 / wikidocs 실측, 2026.03 기준
GPT-5.4 nano가 API에서만 쓸 수 있는 이유
GPT-5.4 nano는 ChatGPT UI나 Codex에서 선택할 수 없습니다. (출처: OpenAI 공식 모델 문서, 2026.03.18 기준) API에서만 호출 가능합니다. OpenAI가 nano를 일반 사용자 대화 인터페이스에 올리지 않은 이유를 공식 문서에서 별도로 밝히지 않았습니다.
실용적인 시각에서 보면, nano는 컴퓨터 제어(GUI 자동화)처럼 멀티모달 정밀도가 필요한 작업에서 성능이 크게 떨어집니다. OSWorld-Verified 점수가 39.0%로, mini의 72.1%와 33%포인트 이상 벌어집니다. ChatGPT에 올리기엔 성능 격차가 너무 뚜렷한 작업 영역이 있고, 그래서 API를 통한 개발자 자율 최적화 환경에만 배포한 것으로 볼 수 있습니다.
컨텍스트 윈도우는 mini와 nano 모두 400,000 토큰입니다. GPT-5.4 본체의 1,050,000 토큰 대비 절반 이하입니다. 긴 문서 처리나 대형 코드베이스 분석처럼 긴 컨텍스트가 필요한 작업에서는 mini/nano가 자동으로 탈락 조건이 됩니다. 400K면 충분한 작업 — 단순 분류, 추출, 요약, 짧은 생성 — 에서는 nano가 가장 저렴한 선택지입니다.
에이전트 파이프라인에서 Nano를 쓰면 생기는 함정
비용을 줄이기 위해 nano를 하위 에이전트(sub-agent)로 투입하는 구조가 많습니다. 계획은 mini나 GPT-5.4 본체가 세우고, 단순 작업 실행은 nano에 맡기는 방식입니다. 개념적으로는 맞는 접근이지만, 실제 구현에서 흔히 발생하는 문제가 있습니다.
상위 오케스트레이터가 전체 메시지 히스토리를 그대로 하위 nano에 넘기는 경우입니다. nano가 맡은 단순 추출 작업 하나에 3~5만 토큰의 불필요한 컨텍스트가 딸려 들어가면, “저렴한 nano를 쓴다”는 전제 자체가 무너집니다. nano의 가격 이점은 컨텍스트를 정확하게 잘라서 넘길 때만 살아납니다. 잘라낸 만큼 비용과 지연 시간이 줄고, 그렇지 않으면 본체보다 오히려 느리고 비쌀 수 있습니다.
400K 컨텍스트 한계도 에이전트 설계에 영향을 줍니다. 긴 대화 이력이 쌓이는 작업에서 nano를 재활용하면, 컨텍스트 초과 오류로 파이프라인이 중단될 수 있습니다. 에이전트 워크플로우를 설계할 때는 각 호출의 실제 컨텍스트 크기를 미리 계산하고 모델을 선택해야 합니다. “nano가 쌀 것 같아서” 쓰는 구조는 결국 예상치 못한 지점에서 막힙니다.
📌 에이전트 비용 계산 예시
nano로 추출 작업 1,000회 실행 시, 컨텍스트를 1K 토큰으로 정확히 자르면 입력 비용 = $0.20 × (1,000,000 / 1,000,000) = $0.20. 컨텍스트를 30K 토큰 그대로 넘기면 = $0.20 × 30 = $6.00. 같은 1,000회 호출에서 30배 차이가 납니다.
OSWorld 72.1% — 소형 모델이 사람 수준에 근접한 맥락
GPT-5.4 mini가 OSWorld-Verified에서 72.1%를 기록했습니다. 인간 기준선이 72.4%입니다. (출처: wikidocs GPT-5.4 mini/nano 분석, 2026.03.19) OSWorld는 실제 컴퓨터 환경에서 GUI를 직접 조작하는 능력을 측정하는 벤치마크입니다. 파일 열기, 앱 제어, 브라우저 조작 같은 데스크탑 작업을 모델이 스스로 수행하는 수준을 평가합니다.
불과 1년 전 SOTA 모델의 OSWorld 점수가 30~40%대였습니다. GPT-5.4 mini는 소형 모델이면서 인간 수준에 도달했습니다. 이 수치가 의미하는 건 분명합니다 — 컴퓨터 자동화 에이전트 구축에 소형 모델을 쓰는 비용 장벽이 실질적으로 낮아졌습니다.
그렇다고 수치를 그대로 믿기 전에 짚을 것이 있습니다. DataCamp의 분석에 따르면 OpenAI가 공개한 지연 시간 수치가 실제 프로덕션 실측값이 아니라 모델 추정치라는 점, 그리고 벤치마크 차트의 Y축이 35%에서 시작해 모델 간 차이를 시각적으로 과장한다는 점입니다. (출처: DataCamp GPT-5.4 mini/nano 리포트, 2026.03) OpenAI가 오차 범위(error bar)를 제공하지 않은 것도 주의할 부분입니다. 성능 향상은 분명하지만, 정확한 수치는 자체 작업 환경에서 재현해보는 게 가장 확실합니다.
Q&A
Q1. GPT-5.4 mini는 언제부터 쓸 수 있나요?
gpt-5.4-mini로 바로 호출 가능합니다.Q2. GPT-5 Thinking mini는 언제 종료되나요?
Q3. GPT-5.4 mini와 nano의 컨텍스트 윈도우 차이는 얼마나 되나요?
Q4. GPT-5.4 nano가 Claude Haiku 4.5보다 무조건 더 낫다고 할 수 있나요?
Q5. GPT-5.4 mini API를 Batch API로 쓰면 얼마나 절약되나요?
마치며
GPT-5.4 mini와 nano는 성능 면에서 명확한 진보입니다. 속도가 3배 빨라졌고, mini는 컴퓨터 자동화 벤치마크에서 인간 수준에 근접했습니다. GPT-5.4 nano가 Claude Haiku 4.5보다 저렴하게 나온 것도 소형 모델 시장 전반에 긍정적인 신호입니다.
다만 “AI는 점점 싸진다”는 통념은 이번 발표로 수정이 필요합니다. 전 세대 GPT-5 mini·nano 사용자가 그대로 마이그레이션한다면 절대 비용은 3~4배 오릅니다. 성능 대비 가격(price-performance)은 개선됐지만, 예산 계획은 새로 짜야 합니다.
실무에서 가장 중요한 판단 기준은 단순합니다. 작업별 실제 컨텍스트 크기를 측정하고, 그에 맞는 모델을 고르는 것입니다. 대화·분류·요약은 mini, 대량 실시간 처리는 nano, 복잡한 코딩 에이전트는 GPT-5.4 본체의 low effort — 이 기준을 지키면 비용과 속도 둘 다 잡을 수 있습니다.
💡 공식 발표 흐름과 실제 사용 패턴을 교차해보니 이런 결론이 나왔습니다
AI 인프라 비용의 민주화는 플래그십 가격 인하가 아니라, 소형 모델 성능 향상으로 이뤄지고 있습니다. 단, 그 소형 모델 자체의 가격은 세대마다 오르고 있습니다.
📚 본 포스팅 참고 자료
본 포스팅은 2026년 3월 27일 기준으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
OpenAI API 가격은 공식 페이지에서 최신 정보를 반드시 확인하시기 바랍니다.

댓글 남기기