GPT-5.4 mini · nano 공식 발표
GPT-5.4 mini가 싸다는 말, 조건이 있습니다
OpenAI가 2026년 3월 18일 GPT-5.4 mini와 nano를 동시 출시했습니다. 공식 보도자료에는 “GPT-5 mini보다 2배 이상 빠르다”고 나옵니다. 그런데 API 가격을 직접 보면 이야기가 달라집니다. 전 세대 대비 입력 토큰 가격이 3배 오른 모델을 놓고 ‘저렴하다’고 쓴 글들이 많지만, 그 전제가 성립하는 조건을 다룬 글은 거의 없었습니다. 공식 발표 수치만 놓고 따져봤습니다.
가격이 3배 올랐는데 ‘저렴하다’는 말이 맞는 경우
GPT-5.4 mini의 API 가격은 입력 토큰 1M당 $0.75, 출력 1M당 $4.50입니다. 전 세대인 GPT-5 mini는 입력 $0.25, 출력 $2.00이었습니다. 입력 기준 3배, 출력 기준 2.25배 인상입니다. (출처: OpenAI 공식 릴리스, 2026.03.17)
그럼에도 ‘저렴하다’는 말이 성립하는 구간이 있긴 합니다. GPT-5.4 본 모델($2.50/1M input)과 비교할 때입니다. mini는 그것의 30% 수준이고, Codex 환경에서 서브에이전트로 쓸 때 GPT-5.4 쿼터의 30%만 소진한다는 점도 OpenAI 공식 문서에 명시되어 있습니다. 즉, 플래그십 모델의 작업을 위임받는 하위 에이전트로 쓸 때는 ‘저렴하다’는 표현이 맞습니다.
💡 공식 발표문과 실제 API 가격표를 같이 놓고 보니 이런 차이가 보였습니다. ‘저렴하다’는 말의 기준점이 GPT-5.4 본 모델인지, GPT-5 mini인지에 따라 결론이 완전히 반대로 갈립니다. 전 세대 예산으로 파이프라인을 짜뒀다면, 같은 작업량에 3배 청구서가 나옵니다.
결론부터 말씀드리면, 비교 기준을 GPT-5.4 본 모델에 두면 ‘싸다’가 맞고, 비교 기준을 GPT-5 mini에 두면 ‘비싸졌다’가 맞습니다. 기존 GPT-5 mini로 이미지 설명, 분류, 요약 파이프라인을 운영 중이라면 동일 워크로드 비용이 즉시 3배 오릅니다.
OSWorld 72.1%: 인간 수준이라는 말이 어디서 나왔는지
GPT-5.4 mini의 OSWorld-Verified 점수는 72.1%입니다. 같은 벤치마크에서 인간 수행 점수는 72.4%입니다. (출처: OpenAI 공식 릴리스, 2026.03.17) 0.3%포인트 차이입니다. 그래서 ‘사실상 인간 수준의 컴퓨터 조작 능력’이라는 말이 나왔습니다.
다만 여기서 주의해야 할 지점이 있습니다. GPT-5.4 mini의 이 점수는 reasoning_effort: xhigh 설정에서 측정한 수치입니다. OpenAI 공식 발표 각주에 “low부터 xhigh까지 설정 가능하다”고 명시되어 있습니다. 기본값이나 낮은 추론 강도로 쓰면 점수가 달라집니다.
💡 벤치마크 숫자 옆에 조건이 붙어 있는 경우, 조건을 떼고 숫자만 인용하면 다른 이야기가 됩니다. 공식 발표 표 아래 각주에 측정 조건이 명시되어 있지만 대부분의 요약 글에서는 생략됩니다.
GPT-5.4 nano의 OSWorld 점수는 39.0%입니다. mini(72.1%)와 nano(39.0%) 사이의 격차가 33%포인트입니다. 두 모델이 동일한 ‘GPT-5.4 경량 라인’으로 묶이지만, 컴퓨터 조작 작업에서는 전혀 다른 모델입니다.
컨텍스트 윈도우 400K, 본 모델과 같다는 착각
GPT-5.4 mini와 nano의 컨텍스트 윈도우는 둘 다 400,000토큰입니다. 반면 GPT-5.4 본 모델은 1,050,000토큰입니다. (출처: 나무위키 GPT-5 항목, OpenAI 모델 페이지) mini와 nano가 본 모델의 38% 수준입니다.
그런데 공식 발표에서 이 부분은 크게 부각되지 않았습니다. “400K 컨텍스트 윈도우로 경쟁 모델 대비 대폭 향상”이라는 표현은 있지만, GPT-5.4 본 모델과의 차이를 직접 병기하지는 않았습니다. 특히 장문 컨텍스트 벤치마크(MRCR v2)를 보면 격차가 더 선명합니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano |
|---|---|---|---|
| MRCR v2 (64K~128K) | 86.0% | 47.7% | 44.2% |
| MRCR v2 (128K~256K) | 79.3% | 33.6% | 33.1% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% |
출처: OpenAI 공식 릴리스 (2026.03.17), reasoning_effort: xhigh 기준
MRCR v2 128K~256K 구간에서 본 모델은 79.3%인데 mini는 33.6%입니다. 절반에도 못 미칩니다. 장문 문서 처리, 긴 코드베이스 분석처럼 128K 이상 컨텍스트가 필요한 작업에서는 mini가 본 모델의 대체제가 되지 않습니다.
ChatGPT에서 쓰는 방식과 API는 완전히 다릅니다
ChatGPT에서 GPT-5.4 mini는 모델 선택기에 직접 노출되지 않습니다. OpenAI 릴리스 노트(2026.03.18)에 따르면 Free·Go 사용자는 ‘+’ 메뉴의 ‘잘 생각하기’ 기능을 통해 접근할 수 있고, Plus·Pro 이상은 GPT-5.4 Thinking의 한도를 다 쓰면 자동 대체(폴백)로 제공됩니다. 즉, ChatGPT 사용자가 ‘GPT-5.4 mini를 선택해서 쓰는’ 경로는 없습니다.
API와 Codex에서는 모델 문자열 gpt-5.4-mini-2026-03-17로 직접 호출할 수 있습니다. nano(gpt-5.4-nano-2026-03-17)는 현재 API 전용이며 ChatGPT에는 통합 계획이 발표되지 않았습니다. (출처: OpenAI 릴리스 노트, 2026.03.18)
⚠️ 주의 사항
기존 GPT-5 Thinking mini는 2026년 4월 18일(KST)에 지원 종료됩니다. (출처: 나무위키 GPT-5 항목) 현재 GPT-5 Thinking mini를 기본값으로 쓰고 있다면 30일 이내 전환이 필요합니다.
GPT-5.4 mini를 API·Codex 목적으로 살펴보는 것과, ChatGPT UI에서 접근하는 것은 전혀 다른 경로입니다. 모델 이름이 같다고 해서 사용 방식이 같다고 보면 안 됩니다.
nano가 더 나은 선택인 경우가 실제로 있습니다
GPT-5.4 nano의 가격은 입력 $0.20/1M, 출력 $1.25/1M입니다. mini($0.75 입력)의 27% 수준입니다. 전 세대(GPT-5 nano: $0.05 입력) 대비로는 4배 올랐지만, mini와 비교하면 여전히 훨씬 저렴합니다.
💡 Simon Willison(개발자 커뮤니티에서 AI 릴리스 분석으로 알려진 인물)이 계산한 수치를 보면 이렇습니다: GPT-5.4 nano로 이미지 76,000장에 대한 설명을 생성하는 데 $52가 듭니다. 이미지 처리량이 많고 각 요청이 단순한 파이프라인에서는 mini를 쓸 이유가 없습니다.
nano가 우선인 작업 유형이 있습니다. OpenAI가 공식 발표에서 직접 권장한 케이스는 분류(classification), 데이터 추출(data extraction), 순위 매기기(ranking), 단순 서브에이전트입니다. 이 작업들은 GPQA Diamond(82.8%)에서 보듯 추론 정확도 자체는 높은 편이지만, 터미널 명령·컴퓨터 조작·복잡한 도구 호출이 필요 없습니다.
단, nano는 현재 컴퓨터 조작(Computer Use)과 도구 검색(Tool Search)을 지원하지 않습니다. mini는 두 기능을 모두 지원합니다. (출처: OpenAI 공식 모델 비교 페이지, 2026.03.20 기준) 작업 흐름에 스크린샷 기반 UI 조작이 포함된다면, nano는 선택지에서 빠집니다.
공식 벤치마크 전체 수치 직접 확인
아래 수치는 OpenAI 공식 릴리스(2026.03.17)의 발표 수치입니다. reasoning_effort: xhigh 기준이며, GPT-5 mini는 high 기준으로 측정되었습니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon (도구 호출) | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond (추론) | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified (PC 조작) | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro (멀티모달) | 81.2% | 76.6% | 66.1% | 67.5% |
| MRCR v2 128K~256K | 79.3% | 33.6% | 33.1% | 19.4% |
출처: OpenAI 공식 릴리스, 2026.03.17 | 공식 발표 원문 보기
주관적으로 보면, GPT-5.4 mini가 가장 두드러지는 영역은 OSWorld입니다. 인간 수준(72.4%)에 근접한 점수가 나왔고, 이전 세대 GPT-5 mini(42.0%) 대비 30%포인트 넘게 올랐습니다. 반면 장문 컨텍스트(MRCR v2 128K~256K)는 본 모델 79.3%에서 mini 33.6%로 급락합니다. 어떤 작업을 하느냐에 따라 mini와 본 모델의 실질적 격차가 전혀 다르게 나타납니다.
자주 나오는 질문 5가지
마치며
GPT-5.4 mini는 분명히 성능이 올랐습니다. SWE-Bench Pro에서 54.4%, OSWorld-Verified에서 72.1%는 이전 세대가 도달하지 못한 수치입니다. 특히 컴퓨터 조작 점수가 사실상 인간 수준에 닿은 것은 에이전트 설계 방식 자체를 바꿀 수 있는 변화입니다.
그런데 ‘저렴한 경량 모델’이라는 수식어를 그대로 받아들이면 예상 밖의 청구서가 나올 수 있습니다. 전 세대 예산 기준이라면 3배입니다. 장문 컨텍스트 작업에서는 본 모델의 절반도 안 되는 성능입니다. 모델 선택기에 보이지 않는다는 점도 생각보다 많은 사람이 놓칩니다.
솔직히 말하면, GPT-5.4 mini가 진짜 빛나는 케이스는 Codex 서브에이전트 구조에서 플래그십 모델의 위임 작업을 받아 처리할 때입니다. 그 구조에서 쓴다면 비용과 성능이 같이 납득됩니다. 그 외의 상황에서는 작업 유형을 먼저 따져보고 nano나 경쟁 모델과 비교해보는 게 낫습니다.
📎 본 포스팅 참고 자료
- OpenAI 공식 릴리스 — Introducing GPT-5.4 mini and nano (openai.com)
- OpenAI ChatGPT 릴리스 노트 (help.openai.com)
- letsdatascience.com — GPT-5.4 Mini and Nano: Pricing vs Performance Analysis (letsdatascience.com)
- aifreeapi.com — GPT-5.4 mini vs GPT-5.4 nano (2026.03.20 기준) (aifreeapi.com)
- 나무위키 GPT-5 항목 — 가격·지원 종료 일정 (namu.wiki)
본 포스팅은 2026년 3월 21일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 OpenAI 공식 발표(2026.03.17~18) 기준이며, 이후 업데이트 시 달라질 수 있습니다.


댓글 남기기