GPT-5.4 mini · nano 기준
GPT-5.4 mini, 직접 써봤습니다
— 싼 게 아닙니다
OpenAI가 2026년 3월 18일(KST) GPT-5.4 mini와 nano를 동시 출시했습니다. “소형 모델이니까 저렴하겠지”라는 생각이 자연스럽지만, 공식 가격표를 펼치는 순간 그게 전혀 다른 이야기라는 걸 알게 됩니다. API 비용이 이전 세대 GPT-5 mini보다 3배 올랐거든요. 동시에 OSWorld 벤치마크에서 사람 수준의 정확도를 기록한 소형 모델이 나왔다는 점도 무시할 수 없습니다. 두 가지 사실을 함께 놓고 봤습니다.
(사람 기준선 72.4%)
vs GPT-5 mini
(Gemini 3 Flash 130)
(mini 기준)
GPT-5.4 mini · nano, 뭐가 출시됐나
2026년 3월 18일 오전 3시(KST), OpenAI가 경량화 모델 GPT-5.4 mini와 GPT-5.4 nano를 동시에 공개했습니다. GPT-5.4 mini는 ChatGPT에서 ‘GPT-5.4 Thinking mini’라는 이름으로 제공되며, 무료(Free)와 Go 요금제 사용자도 메시지 입력창 ‘+’ 메뉴의 ‘잘 생각하기’ 버튼으로 접근할 수 있습니다. GPT-5.4 nano는 API 전용으로, ChatGPT 인터페이스에서는 직접 선택할 수 없습니다.
컨텍스트 윈도우는 mini와 nano 모두 400,000 토큰으로 동일합니다. GPT-5.4 본 모델의 1,050,000 토큰과 비교하면 절반 이하지만, 이전 세대 GPT-5 mini의 128K와 비교하면 3배 이상 확장된 수치입니다. (출처: OpenAI 공식 발표, 2026.03.17)
💡 공식 발표문과 나무위키 모델 기록을 교차해서 보니, GPT-5.4 mini 출시와 동시에 기존 GPT-5 Thinking mini는 2026년 4월 18일(KST) 지원 종료가 확정되었습니다. 아직 GPT-5 mini 기반 파이프라인을 운영 중이라면 이 날짜를 캘린더에 표시해 두는 게 맞습니다.
두 모델 모두 코딩, 도구 사용(tool-calling), 멀티모달 추론, 대규모 API 파이프라인 및 서브에이전트 작업에 최적화된 설계라고 OpenAI는 밝혔습니다. GPT-5.4의 작은 버전이라기보다, 에이전트 환경에서 반복 호출을 담당하는 ‘하위 실행자’ 역할에 맞춰 설계된 모델로 보는 편이 정확합니다.
가격표를 직접 뜯어봤습니다 — “소형 = 저렴”이 깨지는 지점
“소형 모델이 나왔으니 AI가 더 싸졌겠다”는 기대가 자연스럽습니다. 그런데 이번에는 그 논리가 그대로 적용되지 않습니다. GPT-5.4 mini와 nano의 API 가격을 이전 세대인 GPT-5 mini, nano와 나란히 놓으면 바로 보입니다.
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) | 이전 세대 대비 |
|---|---|---|---|
| GPT-5 mini | $0.25 | $2.00 | 기준 |
| GPT-5.4 mini | $0.75 | $4.50 | 입력 3배↑ |
| GPT-5 nano | $0.05 | $0.40 | 기준 |
| GPT-5.4 nano | $0.20 | $1.25 | 입력 4배↑ |
숫자를 그냥 보면 “그래도 $0.75면 싸지 않나”라는 생각이 들 수 있습니다. 문제는 같은 이름 계열의 이전 버전과 비교했을 때입니다. 나무위키에 정리된 API 가격 기록을 확인하면, GPT-5.4 mini의 입력 토큰 가격은 GPT-5 mini 대비 3배, GPT-5.4 nano는 GPT-5 nano 대비 4배 올랐습니다. (출처: 나무위키 GPT-5 문서, 2026.03.18 기준) 절대 가격이 낮다는 사실과, 직전 세대보다 비싸졌다는 사실은 동시에 맞습니다.
💡 경쟁 라인업과 비교하면 맥락이 달라집니다. Gemini 3 Flash는 입력 $0.50/출력 $3.00, Anthropic Haiku 4.5는 입력 $1.00/출력 $5.00 수준입니다. 같은 소형 추론 모델 가격대로 놓으면 GPT-5.4 mini($0.75/$4.50)는 Flash보다 비싸고, Haiku보다는 저렴한 중간 위치입니다. “AI가 계속 싸진다”는 내러티브는 절대 가격이 아니라 성능 대비 가격(price-performance) 기준에서만 유효합니다.
벤치마크에서 눈에 띄는 숫자들
공식 발표에 포함된 벤치마크 수치들 중 실무에서 실제로 의미 있는 항목들을 골라 정리했습니다. 숫자가 많을수록 좋은 게 아니라, 어떤 맥락에서 측정했는지가 핵심입니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| OSWorld-Verified (컴퓨터 조작) | 75.0% | 72.1% | 39.0% | 42.0% |
| GPQA Diamond (추론) | 93.0% | 88.0% | 82.8% | 81.6% |
| Toolathlon (도구 사용) | 54.6% | 42.9% | 35.5% | 26.9% |
| MRCR v2 64K–128K (장문 컨텍스트) | 86.0% | 47.7% | 44.2% | 35.1% |
※ 모든 수치는 reasoning_effort xhigh 기준. (출처: OpenAI 공식 발표, 2026.03.17)
가장 눈에 띄는 건 OSWorld-Verified 72.1%입니다. OSWorld는 실제 PC 환경에서 GUI를 직접 조작하는 능력을 측정하는데, 사람 기준선은 72.4%입니다. 통계적으로 무의미한 차이입니다. 1년 전 SOTA 모델이 30~40%대에 머물렀던 것과 비교하면, 소형 모델 하나로 사람과 대등한 컴퓨터 조작이 가능해진 셈입니다.
반면 nano는 OSWorld에서 39.0%로 mini(72.1%)와 극명한 차이를 보입니다. 코딩(SWE-Bench Pro 52.4%)과 추론(GPQA Diamond 82.8%)에서는 mini에 근접하지만, 복잡한 GUI 조작이 필요한 에이전트 작업에서는 nano를 선택하면 결과가 크게 달라질 수 있습니다.
💡 장문 컨텍스트(MRCR v2 64K–128K)에서 mini는 47.7%로, GPT-5.4 본 모델(86.0%)의 절반 수준입니다. 400K 컨텍스트 창이 주어진다고 해서 장문 처리 정확도가 유지되는 건 아닙니다. 긴 코드베이스나 긴 문서를 통째로 넣는 작업에서 mini와 본 모델의 체감 차이가 두드러지는 이유가 여기 있습니다.
속도 측면에서는 위키독스 실측 데이터 기준, GPT-5.4 nano는 초당 약 200 토큰, mini는 180~190 토큰을 기록했습니다. 이전 세대 GPT-5 mini가 55~60 토큰이었던 것과 비교하면 3배 이상 빨라진 수치입니다. (출처: wikidocs.net 실측 분석, 2026.03.19) Gemini 3 Flash의 130 토큰/초보다도 높습니다.
Codex 사용자에게 mini가 핵심인 이유
Codex 기반 워크플로우에서 반복적으로 발생하는 코드 분류, 파일 요약, 간단한 함수 생성 같은 작업들은 사실 GPT-5.4 본 모델의 풀 성능이 필요하지 않은 경우가 많습니다. 이런 하위 작업들을 mini로 처리하면 같은 월 구독료나 API 예산으로 총 처리량을 늘릴 수 있습니다.
💡 OpenAI의 Codex 공식 서브에이전트 문서를 확인하면, 메인 에이전트(GPT-5.4)가 오케스트레이터 역할을 하고 하위 실행은 mini를 쓰는 구조가 권장 패턴으로 나와 있습니다. 이 구조를 쓰면 정확도를 GPT-5.4 수준으로 유지하면서 전체 비용을 크게 줄일 수 있습니다.
SWE-Bench Pro에서 mini(54.4%)와 본 모델(57.7%) 간 차이는 약 3.3%포인트입니다. Codex 할당량 소비가 30%라는 점을 감안하면, 비용 대비 성능 비율에서 mini가 압도적으로 유리한 구간이 분명히 존재합니다.
mini가 막히는 조건 두 가지
벤치마크 수치만 보면 mini가 대부분의 상황을 커버하는 것처럼 보입니다. 그런데 실무 커뮤니티(Reddit r/codex, r/AI_Agents)에서 반복적으로 등장하는 문제 패턴이 두 가지 있습니다.
① 긴 코딩 추론 작업에서 오히려 느려진다
wikidocs 실측 분석에 따르면, SWE-Bench에서 mini가 높은 추론 수준(xhigh)으로 작동할 때 응답까지 평균 254초가 걸렸습니다. 같은 조건의 GPT-5.4 본 모델은 171초였습니다. 단순 속도 수치(초당 토큰)는 mini가 빠르지만, 복잡한 코딩 문제에서 추론 단계가 길어지면 총 소요 시간이 역전됩니다. (출처: wikidocs.net 실측 분석, 2026.03.19)
② 컨텍스트 창이 넓다고 장문 처리 품질이 유지되지 않는다
MRCR v2 벤치마크에서 mini는 64K~128K 구간에서 47.7%를 기록했습니다. GPT-5.4 본 모델이 같은 구간에서 86.0%를 기록한 것과 비교하면 절반 수준입니다. Reddit r/GithubCopilot 스레드에서 한 사용자가 “20만 토큰을 넘어가면 컨텍스트 윈도우 품질이 엄청 떨어진다”고 지적한 것과 맥락이 일치합니다. 400K 창이 주어진다고 해서 400K까지 안정적으로 활용 가능하다는 의미가 아닙니다.
⚠️ 멀티 에이전트 파이프라인에서 nano를 하위 에이전트로 쓸 때, 상위 에이전트의 전체 히스토리를 그대로 넘기는 오케스트레이터 구조는 역효과를 낼 수 있습니다. 3~5만 토큰의 불필요한 컨텍스트가 쌓이면 비용·지연 이점이 사라집니다. OpenAI 공식 답변이 나오지 않은 부분이지만, 실무 커뮤니티에서는 컨텍스트 윈도우를 의도적으로 잘라 넘기는 방식이 권장되고 있습니다.
정리하면, mini는 단순·반복 API 호출, 짧은 컨텍스트 분류·요약 작업, Codex 하위 에이전트 역할에서 가장 유리합니다. 긴 추론이 필요한 코딩 태스크나 장문 문서를 다루는 분석 작업에서는 GPT-5.4 본 모델을 선택하는 게 시간과 결과물 품질 모두에서 낫습니다.
ChatGPT 요금제별로 쓸 수 있는 범위
모델이 아무리 좋아도 내 요금제에서 얼마나 쓸 수 있는지가 실제 사용 경험을 결정합니다. ChatGPT 공식 Help Center(2026.03 기준)에 정리된 내용을 요약했습니다.
| 요금제 | mini 접근 방법 | 한도 |
|---|---|---|
| Free | ‘+’ → ‘잘 생각하기’ 또는 GPT-5.3 한도 초과 시 자동 전환 | 5시간마다 10개 (GPT-5.3 기준 초과 후) |
| Go | ‘+’ → ‘잘 생각하기’ 선택, Thinking 모드 활성화 | 5시간마다 10개 (Thinking 활성화 후) |
| Plus / Business | GPT-5.4 Thinking 한도 소진 후 자동 전환 | GPT-5.4 Thinking 주당 3,000개 초과 후 무제한 전환 |
| Pro / Enterprise | 모델 선택기에서 직접 선택 가능 | 악용 방지 범위 내 무제한 |
(출처: OpenAI Help Center ‘챗GPT의 GPT-5.3 및 GPT-5.4’, 2026.03 기준)
Plus 사용자 기준으로 실질적인 흐름은 이렇습니다. GPT-5.4 Thinking을 주당 3,000개까지 쓸 수 있고, 한도를 넘으면 자동으로 mini로 전환됩니다. mini로 전환된 이후에는 별도 한도 없이 계속 사용할 수 있습니다. “Thinking 한도가 다 떨어져도 완전히 막히지 않는다”는 점이 이전 요금제 구조와 다른 부분입니다.
단, GPT-5.4 Pro는 Pro·Business·Enterprise·Edu 요금제에서만 쓸 수 있습니다. Plus 요금제에서 Pro를 선택하면 이미지 생성, 앱, 메모리, 캔버스가 제공되지 않는다는 점도 공식 문서에 명시되어 있습니다. (출처: OpenAI Help Center, 2026.03)
Q&A
마치며 — GPT-5.4 mini, 어떻게 봐야 하나
동시에, “이전 세대보다 3~4배 비싸진 가격 구조”와 “장문 컨텍스트에서 절반 수준으로 떨어지는 정확도”는 무시하기 어려운 현실입니다. mini는 Codex 하위 에이전트, 짧은 컨텍스트 API 호출, ChatGPT Plus에서 Thinking 한도 초과 후 연속 작업처럼 “빠르게 반복하는” 용도에서 진가를 발휘합니다.
솔직히 말하면, 이 모델을 어떻게 쓸지 결정하는 기준은 단 하나입니다. 작업 하나당 컨텍스트가 얼마나 필요한지입니다. 50K 이하라면 mini, 그 이상 특히 장문 추론이라면 본 모델. 이 기준으로만 봐도 절반 이상의 선택은 명확해집니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 22일 기준으로 작성되었습니다. OpenAI의 모델 사양, API 가격, ChatGPT 요금제별 제공 범위 및 한도는 서비스 정책·업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 최신 정보는 OpenAI 공식 사이트 및 Help Center에서 직접 확인하세요.

댓글 남기기