OpenAI 공식 발표
API 가격 확인 완료
GPT-5.4 mini·nano, 쌀수록 좋다는 말이 틀린 경우
GPT-5.4 mini와 nano가 2026년 3월 17일 출시됐습니다. 그런데 막상 가격표를 보니 이전 세대보다 3~4배 비쌉니다. 성능이 올랐다는 건 사실이지만, 어떤 용도냐에 따라 nano가 완전히 무용지물이 되는 벤치마크도 있습니다. 이 글에서는 OpenAI 공식 발표문 수치와 크로스벤더 비교를 토대로, 어떤 조건에서 mini를 쓰고 어떤 조건에서 nano로 충분한지 직접 따져봤습니다.
GPT-5.4 mini·nano가 뭔지, 일단 한 줄로
구조를 간단히 정리하면, GPT-5.4 계열은 플래그십(Thinking)→mini→nano 순으로 내려갑니다. 플래그십이 판단·계획을 맡고, mini가 빠른 실행을, nano는 단순 분류·추출·라우팅을 처리하는 방식입니다. OpenAI는 이 세 모델이 서로 경쟁하는 게 아니라 에이전트 파이프라인에서 함께 작동하도록 설계했다고 밝혔습니다.
가용 범위는 다릅니다. mini는 API·Codex·ChatGPT 전 플랜에서 쓸 수 있고, nano는 API 전용입니다. ChatGPT 앱에서는 nano를 선택할 수 없습니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — mini와 nano는 “같은 선상의 저렴한 모델”이 아닙니다. nano는 처음부터 서브에이전트 역할로만 만들어진 모델이고, 범용으로 쓰면 벤치마크에서 바닥을 치는 항목이 하나 있습니다. 그게 컴퓨터 조작(OSWorld) 입니다.
공식 벤치마크, 어디서 차이가 큰지
코딩 벤치마크인 SWE-Bench Pro에서 mini(54.4%)와 nano(52.4%)의 차이는 고작 2포인트입니다. 플래그십인 GPT-5.4(57.7%)와 비교해도 mini는 3.3포인트 차이밖에 나지 않습니다. (출처: OpenAI 공식 발표문, 2026.03.17) 즉 코딩만 보면 nano를 써도 mini와 거의 같은 결과를 기대할 수 있습니다.
그런데 컴퓨터 조작(OSWorld-Verified) 점수가 완전히 다릅니다. mini는 72.1%로 사람 기준선(72.4%)과 거의 같은 수준인 반면, nano는 39.0%에 그칩니다. 33포인트 격차입니다. 브라우저 자동화, UI 클릭, 앱 조작 같은 작업에 nano를 붙이면 셋 중 두 번은 실패한다는 뜻입니다.
| 벤치마크 | GPT-5.4 | mini | nano | GPT-5 mini(前) |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| OSWorld (컴퓨터 조작) | 75.0% | 72.1% | 39.0% | 42.0% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| GPQA Diamond (과학) | 93.0% | 88.0% | 82.8% | 81.6% |
| Toolathlon (도구 정확도) | 54.6% | 42.9% | 35.5% | 26.9% |
터미널 작업(Terminal-Bench 2.0)에서도 mini(60.0%)와 nano(46.3%)의 간격이 제법 벌어집니다. 복잡한 터미널 명령 체인이 들어가는 에이전트 파이프라인에 nano를 붙이면 실패율이 눈에 띄게 올라갑니다. 반면 GPQA Diamond(과학 추론)는 nano가 82.8%로 이전 세대 GPT-5 mini(81.6%)보다 높고, 가격 대비 추론 성능은 꽤 납득이 갑니다.
가격이 올랐다는 게 무슨 뜻인지
소형 모델은 세대가 올라갈수록 싸진다는 건 2023년 이후 유지되던 흐름이었습니다. 이번에 그 흐름이 끊겼습니다. GPT-5.4 mini의 입력 토큰 가격은 $0.75/백만 토큰으로, 이전 세대인 GPT-5 mini($0.25/백만 토큰)의 정확히 3배입니다. nano는 더 심해서 $0.20/백만 토큰으로 GPT-5 nano($0.05/백만 토큰)의 4배입니다. (출처: OpenAI API 가격 페이지, 2026.03.17 기준)
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) | 변동 |
|---|---|---|---|
| GPT-5 mini (이전) | $0.25 | $2.00 | 기준 |
| GPT-5.4 mini (신규) | $0.75 | $4.50 | +200% |
| GPT-5 nano (이전) | $0.05 | $0.40 | 기준 |
| GPT-5.4 nano (신규) | $0.20 | $1.25 | +300% |
이게 실제 비용에서 어떤 차이를 만드는지 직접 계산해볼 수 있습니다. 하루 요청 100만 건, 평균 요청당 입력 1,000 토큰 + 출력 500 토큰 기준으로 보면 GPT-5.4 mini는 하루 약 $3,000, 한 달 약 $90,000입니다. GPT-5 mini 기준($825/일)의 3.6배를 내야 합니다. 기존 파이프라인을 그냥 교체하면 운영비가 바로 3배 이상 뜁니다.
💡 Batch API를 활용하면 50% 할인이 적용돼, nano + Batch API 조합은 입력 기준 $0.10/백만 토큰까지 내려갑니다. 24시간 응답 지연이 허용되는 대량 작업이라면 이 조합이 현실적인 대안입니다. (출처: OpenAI API 공식 문서, 2026.03.17 기준)
Free 사용자는 지금 이미 mini를 쓰고 있습니다
ChatGPT Free 플랜 사용자라면 5시간마다 GPT-5.3으로 최대 10개 메시지를 보낼 수 있고, 한도를 초과하면 자동으로 mini 버전으로 전환됩니다. (출처: OpenAI Help Center, “GPT-5.3 and GPT-5.4 in ChatGPT”) 따로 설정을 바꾸지 않아도 이미 GPT-5.4 mini를 쓰고 있는 상황이 됩니다.
추가로, ChatGPT 앱의 입력창 좌측 + 메뉴에서 Thinking 옵션을 선택하면 Free·Go 사용자도 GPT-5.4 mini를 직접 사용할 수 있습니다. Free 플랜에서 GPT-5.4 계열 추론 모델에 접근할 수 있게 된 건 이번이 처음이라, 무료 사용자 입장에서는 꽤 큰 변화입니다. 다만 nano는 여전히 API 전용이라 ChatGPT 인터페이스에서는 접근할 수 없습니다.
💡 공식 문서를 보면 한 가지 주의할 지점이 있습니다 — GPT-5.4 Pro는 Plus·Business·Enterprise 사용자에게도 앱, 메모리, 캔버스, 이미지 생성을 지원하지 않습니다. Pro 요금제에서 쓰는 GPT-5.4 Pro와 일반 GPT-5.4 Thinking은 도구 지원 범위가 다릅니다. (출처: OpenAI Help Center, 2026.03.17)
Claude·Gemini와 비교하면 달라지는 부분
경쟁 모델과 비교하면 GPT-5.4 mini의 위치가 좀 더 선명해집니다. 입력 가격만 보면 mini($0.75)는 Claude Haiku 4.5($1.00)보다 싸고, 코딩(SWE-Bench 54.4% vs 약 41%)과 컴퓨터 조작(OSWorld 72.1% vs 50.7%)에서 수치상 앞섭니다. 컨텍스트 창도 mini(400K)가 Haiku 4.5(200K)의 두 배입니다. (출처: StackBuilt AI 분석, findskill.ai 비교 자료, 2026.03.21)
| 모델 | 입력 (1M) | 컨텍스트 | SWE-Bench | OSWorld |
|---|---|---|---|---|
| GPT-5.4 mini | $0.75 | 400K | 54.4% | 72.1% |
| GPT-5.4 nano | $0.20 | 400K | 52.4% | 39.0% |
| Claude Haiku 4.5 | $1.00 | 200K | 약 41% | 50.7% |
| Gemini 3 Flash | $0.50 | 1M | 약 47.6% | – |
nano와 직접 비교되는 초저가 영역에선 Gemini 2.5 Flash-Lite($0.10/1M 입력)가 있습니다. 터미널 벤치마크 기준으로 nano(46.3%)와 Flash-Lite(51.7%)가 비슷한 수준이고 Flash-Lite가 절반 가격이니, 단순 분류·추출 작업에서는 구글 생태계를 쓰는 개발자라면 Flash-Lite도 현실적인 선택지입니다. 단, Gemini 2.5 Flash-Lite Preview는 2026년 3월 31일에 종료 예정이라 버전 확인이 필요합니다. (출처: Google AI for Developers 릴리스 노트, 2026.03.09)
mini를 써야 하는 조건, nano로 충분한 조건
솔직히 말하면, nano는 “싸니까 일단 나쁜 선택이 아니다”라는 발상으로 쓰면 탈이 납니다. 컴퓨터 조작이 포함된 에이전트 파이프라인에 nano를 붙이면 OSWorld 기준으로 10번 중 6번 이상 실패합니다. mini(72.1%)와 nano(39.0%)의 격차가 실제 파이프라인 안정성에 직접 영향을 줍니다.
반면 코딩 서브에이전트 역할은 nano도 충분합니다. SWE-Bench Pro에서 nano(52.4%)와 mini(54.4%) 차이는 2포인트이고, Codex에서 미니는 GPT-5.4 할당량의 30%를 사용하지만 nano는 그보다 훨씬 낮은 비용으로 단순 파일 검색·코드 추출 등을 처리합니다. OpenAI가 명시적으로 추천하는 nano 용도는 분류(classification), 데이터 추출, 랭킹, 간단한 코딩 서브에이전트입니다. (출처: OpenAI 공식 발표, 2026.03.17)
📌 용도별 선택 기준 요약
mini 적합 코딩 어시스턴트, 컴퓨터 조작(UI 자동화), 복합 멀티스텝 툴 체인, ChatGPT 인터페이스 전반
nano 적합 대량 텍스트 분류, 데이터 추출, 라우팅 결정, 간단한 코딩 서브에이전트, Batch API 조합 대량 처리
nano 비적합 UI 조작·브라우저 자동화 포함 에이전트, 복잡한 터미널 명령 체인, ChatGPT 앱(API 전용)
Codex에서 mini는 GPT-5.4 할당량의 30%만 소모합니다. GPT-5.4 할당량이 제한된 상황에서 단순 코딩 작업을 mini로 위임하면 비용이 약 1/3로 줄어듭니다. 에이전트 아키텍처를 설계한다면 이 비율을 파이프라인 예산 산정에 직접 반영할 수 있습니다. (출처: OpenAI 공식 발표, 2026.03.17)
Q&A 5가지
마치며 — 총평
다만 가격이 이전 세대보다 3~4배 올랐고, 이 인상이 “소형 모델은 세대가 올라갈수록 싸진다”는 흐름을 처음으로 끊었다는 점은 짚어둘 필요가 있습니다. OpenAI가 몇 달 안에 가격을 조정할지는 이유를 별도로 밝히지 않았고, 당분간은 현 가격표가 기준이 됩니다.
직접 써본 관점에서는, mini는 코딩·에이전트 파이프라인에서 플래그십 대비 성능 손실이 생각보다 작아서 만족스럽고, nano는 분류·추출 전용으로만 쓴다면 Batch API 조합이 꽤 실용적입니다. 다만 “nano가 싸니까 일단 붙여보자”는 접근은 컴퓨터 조작이 조금이라도 포함된 작업에선 바로 실패율로 돌아옵니다. 용도를 먼저 확인하고 선택하는 것이 맞습니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano (openai.com)
- OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (help.openai.com)
- ZDNET — OpenAI’s GPT-5.4 mini and nano launch (zdnet.com)
- Google AI for Developers — Gemini API Changelog (ai.google.dev)
- Simon Willison — GPT-5.4 mini and nano analysis (simonwillison.net)
본 포스팅은 2026년 3월 22일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 정확한 현재 가격과 스펙은 OpenAI 공식 사이트에서 반드시 재확인하시기 바랍니다.


댓글 남기기