2026.03.25 작성
OpenAI 공식 발표 기준
GPT-5.4 mini, “대부분 작업에 쓰라”고요? 이 수치 먼저 보세요
2026년 3월 17일, OpenAI가 GPT-5.4 mini와 nano를 동시에 출시했습니다. 플래그십 대비 70% 저렴하다는 숫자는 맞습니다. 그런데 공식 발표문 안에 조용히 묻혀 있는 벤치마크 하나를 보면, “대부분 작업”이라는 말이 어디까지 유효한지 다시 생각하게 됩니다.
mini와 nano, 뭐가 다른가
결론부터 말씀드리면, mini와 nano는 단순한 크기 차이가 아닙니다. 타깃 워크로드 자체가 다릅니다. mini는 “플래그십이 하는 일을 더 빠르게”를 목표로 만든 모델이고, nano는 “빠르고 싸게, 단순 작업만”에 특화된 모델입니다.
OpenAI가 공식 발표에서 nano에 권장하는 용도는 분류(classification), 데이터 추출(data extraction), 랭킹(ranking), 그리고 단순한 코딩 서브에이전트 이렇게 딱 네 가지입니다. (출처: OpenAI 공식 발표, 2026.03.17) 복잡한 추론, 긴 문서 처리, 멀티스텝 에이전트 작업은 nano의 목록에 없습니다.
반면 mini는 코딩 보조, UI 스크린샷 해석, 멀티모달 처리처럼 응답 지연(latency)이 제품 경험에 직접 영향을 미치는 상황을 위해 설계됐습니다. 컨텍스트 윈도우도 400K 토큰으로 둘 다 동일하지만, 실제 장문 처리 성능에서 격차가 크게 벌어지는 건 따로 설명할게요.
nano는 ChatGPT 앱에서 아예 제공되지 않습니다. API 전용 모델입니다. (출처: OpenAI 공식 발표, 2026.03.17) “작은 ChatGPT”로 쓰려 했다면 mini를 써야 합니다. nano를 ChatGPT에서 쓸 방법은 없습니다.
벤치마크로 본 실력 — 수치 직접 확인
OpenAI 공식 발표문에 실린 벤치마크 수치를 직접 정리했습니다. 전반적으로 mini는 플래그십의 90~94% 수준을 유지합니다.
| 벤치마크 | GPT-5.4 | mini | nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| OSWorld (컴퓨터 사용) | 75.0% | 72.1% | 39.0% | 42.0% |
| GPQA Diamond (추론) | 93.0% | 88.0% | 82.8% | 81.6% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| MRCR v2 (장문 맥락, 128K~256K) | 79.3% | 33.6% | 33.1% | 19.4% |
출처: OpenAI 공식 발표문 (2026.03.17), openai.com/index/introducing-gpt-5-4-mini-and-nano
코딩과 추론에서는 mini가 플래그십의 90% 이상을 유지합니다. 실용적으로 쓸 만한 수준입니다. 문제는 맨 아래 MRCR 수치입니다.
장문 처리에서 수치가 반토막 나는 조건이 있습니다
MRCR(Multi-Range Context Retrieval) 벤치마크는 긴 문서에서 여러 개의 세부 정보를 동시에 추적하는 능력을 측정합니다. 128K~256K 토큰 구간에서 플래그십은 79.3%를 기록했는데, mini는 33.6%입니다. (출처: OpenAI 공식 발표, 2026.03.17) 절반도 안 됩니다.
200페이지짜리 계약서에서 특정 조항 여러 개를 동시에 참조해야 하는 작업, 긴 코드베이스에서 여러 파일을 걸쳐 맥락을 유지해야 하는 작업 — 이런 상황에서 mini의 실제 성능은 “70% 저렴”과 반비례합니다. 저렴한 만큼 여기서 틀릴 가능성이 높습니다.
같은 400K 컨텍스트 윈도우를 갖고 있어도, 윈도우를 제공한다는 것과 그 안에서 정확하게 추적한다는 건 다른 문제입니다. 64K~128K 구간에서도 mini는 47.7%인데 플래그십은 86.0%입니다. implicator.ai의 분석에서도 이 대목을 “수십 가지 세부 정보를 추적해야 하는 업무라면 플래그십이 한 푼도 아깝지 않다”고 짚었습니다. (출처: implicator.ai, 2026.03.18)
반대로 짧고 명확한 단발 요청, 스크린샷 분석, 코드 수정 같은 작업에서는 mini가 플래그십 대비 94~96% 수준을 보입니다. 맥락이 짧을수록 mini가 유리합니다.
Codex에서 mini를 쓰면 비용이 다르게 계산됩니다
API 가격으로만 보면 mini는 플래그십(입력 $2.50/1M)의 70% 절약이 맞습니다. 그런데 Codex 환경에서는 계산 방식이 달라집니다.
Codex에서 mini는 플래그십 할당량의 30%만 소진합니다. (출처: OpenAI 공식 발표, 2026.03.17) 같은 주간 한도 안에서 플래그십 1회 대신 mini를 3회 돌릴 수 있습니다. 단순한 가격 비교와 다른 얘기입니다.
OpenAI가 Codex를 통해 제안하는 아키텍처는 이렇습니다. 플래그십이 전체 작업을 계획·조율하고, 단순한 서브태스크 — 코드베이스 검색, 큰 파일 리뷰, 보조 문서 처리 같은 것들 — 는 mini 서브에이전트에 병렬로 위임합니다. 이 구조를 “오케스트레이터 + 서브에이전트” 패턴이라고 부릅니다.
이게 왜 중요하냐면, mini를 “플래그십 대신”으로 쓰는 것과 “플래그십 아래에서 같이” 쓰는 것은 완전히 다른 설계입니다. OpenAI가 공식적으로 권장하는 방향은 후자입니다. 싱글 모델로 전부 처리하는 게 아니라, 각 단계에 맞는 모델을 선택하는 멀티모델 시스템 설계입니다.
실사용자 반응에서도 이 구분이 확인됩니다. Codex 앱 안에서 5.4와 mini를 병렬로 돌렸을 때 속도와 비용 균형이 좋다는 평가가 나오는 반면, mini 단독으로 복잡한 리팩터링을 맡겼을 때 중간에 멈추거나 의도를 잘못 파악하는 케이스가 보고됐습니다. (출처: thezvi.substack.com, 2026.03.11)
nano가 실제로 쓸 만한 상황, 딱 4가지입니다
OpenAI가 공식적으로 nano에 권장하는 용도 네 가지를 실제 상황으로 풀어보면 이렇습니다.
텍스트 분류
감성 분석, 카테고리 자동 분류, 스팸 필터링처럼 입출력이 짧고 정답이 명확한 작업.
데이터 추출
영수증에서 금액·날짜 추출, 이메일에서 이름·주소 파싱처럼 구조화된 필드 추출.
랭킹·순위
검색 결과 재정렬, 추천 리스트 스코어링처럼 대량으로 빠르게 처리해야 하는 순위 작업.
단순 코딩 서브에이전트
상위 모델이 계획을 세운 후 넘기는 단순 반복 코드 생성, 파일 검색 보조 등.
OSWorld(컴퓨터 사용 에이전트) 벤치마크에서 nano는 39.0%인데 GPT-5 mini(구형)는 42.0%입니다. (출처: OpenAI 공식 발표, 2026.03.17) nano가 이전 세대 소형 모델보다 낮습니다. 컴퓨터 사용 에이전트로 nano를 쓰는 건 맞지 않습니다.
“70% 저렴”인데 왜 지갑이 더 얇아질 수 있나
mini가 플래그십보다 70% 저렴하다는 건 사실입니다. 그런데 GPT-5 mini(이전 세대)와 비교하면 얘기가 달라집니다.
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) | 이전 세대 대비 |
|---|---|---|---|
| GPT-5 mini (이전) | ~$0.25 | ~$1.00 | 기준 |
| GPT-5.4 mini (신형) | $0.75 | $4.50 | 입력 3배 ↑ |
| GPT-5 nano (이전) | ~$0.05 | ~$0.20 | 기준 |
| GPT-5.4 nano (신형) | $0.20 | $1.25 | 입력 4배 ↑ |
출처: OpenAI 공식 발표 및 implicator.ai 분석 (2026.03.18), 이전 세대 가격은 약 수치
mini는 이전 GPT-5 mini 대비 입력 가격이 3배 올랐습니다. nano는 4배입니다. 플래그십과의 비교에서 “저렴하다”는 건 맞지만, 소형 모델 가격 자체는 세대를 거치면서 올라가고 있습니다. implicator.ai는 이 추세를 두고 “두 세대만 더 지나면 버짓 모델이 비용 우위를 잃을 수 있다”고 짚었습니다. (출처: implicator.ai, 2026.03.18)
같은 주에 DeepSeek V3.1, Mistral Small 4 같은 오픈소스 경쟁 모델도 출시됐습니다. 고볼륨 단순 작업이라면 오픈소스 모델과의 비용 비교도 선택지 안에 들어옵니다.
Q&A — 자주 나오는 질문 5가지
+
nano는 ChatGPT에서 쓸 수 없나요?
+
코딩 작업에서 mini와 플래그십 성능 차이가 큰가요?
+
Codex에서 mini를 쓰면 주간 한도가 어떻게 달라지나요?
+
mini의 컨텍스트 윈도우가 400K인데 왜 장문에 약한가요?
+
마치며 — 실제로 어떻게 쓸지 정리하면
솔직히 말하면, OpenAI가 “대부분 작업에 mini를 쓰라”고 말할 때 그 “대부분”은 응답 지연에 민감한 짧은 요청입니다. 200페이지 계약서 리뷰, 수천 줄 코드베이스의 맥락 유지, 멀티파일 분석 — 이런 건 포함 안 됩니다.
nano는 “저렴한 버전의 mini”가 아닙니다. 완전히 다른 용도입니다. API 개발자가 분류·추출·랭킹 파이프라인을 대량으로 돌릴 때 쓰는 모델이고, 일반 ChatGPT 사용자는 접근 자체가 안 됩니다.
가격 흐름도 봐야 합니다. 플래그십 대비 “70% 저렴”은 사실이지만, 이전 세대 소형 모델과 비교하면 오히려 3~4배 올랐습니다. 세대가 지날수록 소형 모델도 비싸지는 추세입니다.
개인적으로는 Codex 서브에이전트 구조가 mini의 진짜 활용처라고 봅니다. 플래그십이 판단하고 mini가 실행하는 구조에서, 장문 추적은 플래그십에게 맡기고 빠른 반복 작업은 mini가 담당하는 설계가 지금 시점에서 가장 효율적으로 보입니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano (openai.com/index/introducing-gpt-5-4-mini-and-nano)
- implicator.ai — OpenAI GPT-5.4 Mini Hits 94% of Flagship Benchmarks at 70% Lower Cost (implicator.ai)
- thezvi.substack.com — GPT-5.4 Is A Substantial Upgrade, Zvi Mowshowitz (2026.03.11) (thezvi.substack.com)
- OpenAI Developers API Docs — GPT-5.4 mini/nano Model Specs (platform.openai.com/docs/models)
본 포스팅은 2026년 3월 25일 작성됐습니다. OpenAI의 서비스 정책, 가격, 기능, 벤치마크 측정 방식은 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 OpenAI 공식 사이트에서 확인하시기 바랍니다.











댓글 남기기