GPT-5.4 nano
API 전용
GPT-5.4 nano, 싸다는 말이 전부가 아닌 이유
출시 6일, 공식 수치를 꺼내봤더니 “싸니까 무조건 이득”이라는 공식이 딱 한 가지 조건에서 무너집니다. 그 조건이 무엇인지, 왜 그런지 공식 발표문 수치로 짚어봤습니다.
GPT-5.4 nano, 뭐가 달라졌나요
2026년 3월 17일, OpenAI는 GPT-5.4 mini와 nano를 동시에 출시했습니다. GPT-5.4가 나온 지 12일 만입니다. nano는 이 라인업에서 가장 작고 빠른 모델로, OpenAI 공식 발표에 따르면 “분류(Classification), 데이터 추출, 순위 매기기, 서브에이전트 작업”이 주 용도입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
GPT-5 nano를 대체하는 모델인데, 구형 GPT-5 mini보다 여러 벤치마크에서 앞섭니다. 이게 핵심입니다. 전 세대 mini 급 성능을 nano 가격에 쓸 수 있게 됐다는 얘기이기 때문입니다. API 가격은 입력 토큰 100만 개당 $0.20, 출력 토큰 100만 개당 $1.25입니다. 한마디로 GPT-5.4 전체 모델($2.50/$15.00)의 12분의 1 수준입니다.
한 가지 먼저 말씀드리면, nano는 ChatGPT에서 쓸 수 없습니다. API 전용입니다. mini는 ChatGPT Free·Go 플랜 사용자가 Thinking 기능으로 쓸 수 있지만, nano는 개발자 API 직접 호출만 됩니다. 요약 기사들 대부분이 이 부분을 빠뜨립니다.
💡 공식 발표문과 실제 접근 경로를 같이 보면 이런 차이가 보입니다 — nano는 ChatGPT 사용자가 아니라 API 개발자를 위한 모델입니다. 서비스에 AI를 직접 붙이는 분이 아니라면 체감할 기회가 없습니다.
코딩 벤치마크, GPT-5.4 nano가 전 세대 mini를 뒤집다
보통 nano라고 하면 “그냥 버려도 되는 성능”을 떠올립니다. 그런데 코딩 쪽 수치를 보면 얘기가 다릅니다. OpenAI 공식 발표 기준으로 GPT-5.4 nano의 SWE-Bench Pro 점수는 52.4%입니다. 구세대 GPT-5 mini가 45.7%였는데, nano가 그걸 넘깁니다. (출처: OpenAI 공식 블로그, openai.com/index/introducing-gpt-5-4-mini-and-nano/, 2026.03.17)
SWE-Bench Pro는 실제 GitHub 이슈를 AI가 코드로 해결하는지를 측정하는 벤치마크입니다. nano가 52.4%라는 건 100개 실제 버그 중 52개를 스스로 픽스한다는 의미입니다. 비용은 mini 대비 4분의 1도 안 됩니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini (구세대) |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| GPQA Diamond (지식) | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified (컴퓨터 사용) | 75.0% | 72.1% | 39.0% | 42.0% |
| Toolathlon (도구 호출) | 54.6% | 42.9% | 35.5% | 26.9% |
출처: OpenAI 공식 발표, 2026.03.17 / xhigh reasoning effort 기준
코딩과 지식 추론에서는 nano가 구형 mini를 확실히 앞섭니다. 즉, 작년 표준 mini 역할을 nano 가격으로 대체할 수 있다는 얘기입니다.
nano가 확실히 불리한 딱 한 곳
표에서 빨간 숫자를 보셨을 겁니다. OSWorld-Verified에서 nano는 39.0%입니다. 구형 GPT-5 mini가 42.0%였으니 역전입니다. 다른 항목은 전부 nano가 구형 mini보다 앞서는데, 컴퓨터 사용(Computer Use) 부분에서만 뒤집힙니다.
⚠️ OSWorld-Verified 기준: GPT-5.4 nano 39.0% vs 구 GPT-5 mini 42.0%
스크린샷을 읽고 UI를 직접 조작하는 에이전트를 만들고 있다면 nano는 구형 mini보다 오히려 낮습니다. OpenAI도 공식 발표에서 nano의 권장 용도에 컴퓨터 사용을 포함하지 않았습니다. (출처: openai.com/index/introducing-gpt-5-4-mini-and-nano/)
DataCamp의 분석도 같은 결론을 냅니다: “GPT-5.4 nano가 컴퓨터 사용 작업을 위해 만들어진 게 아님은 분명하다.” (출처: DataCamp 블로그, datacamp.com/blog/gpt-5-4-mini-nano, 2026.03.17)
왜 이런 차이가 나는지 OpenAI가 공식 이유를 밝히지 않았습니다. 다만 컴퓨터 사용은 복잡한 멀티모달 추론과 UI 해석이 동시에 필요한 작업인데, nano는 그보다 단순한 분류·추출·순위 매기기에 최적화됐다는 구조적 차이가 원인으로 추정됩니다.
경쟁사 소형 모델과 가격·성능 직접 비교
소형 모델 시장에서 GPT-5.4 nano가 어디쯤 서 있는지 가격 기준으로 먼저 보겠습니다. Hacker News에서 실제 API 사용자가 정리한 가격 비교가 공식 수치와 일치합니다.
| 모델 | 입력 $/1M 토큰 |
출력 $/1M 토큰 |
GPQA Diamond |
|---|---|---|---|
| GPT-5.4 nano | $0.20 | $1.25 | 82.8% |
| GPT-5.4 mini | $0.75 | $4.50 | 88.0% |
| Claude Haiku 4.5 | $1.00 | $5.00 | 73.0% 추정 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 86.9% |
| Gemini 3 Flash | $0.50 | $3.00 | — |
출처: OpenAI API Pricing 공식 페이지 / Hacker News 커뮤니티 실측, 2026.03.17 / Gemini 3.1 Flash-Lite는 Google Vertex AI 공식 가격 기준
여기서 흥미로운 지점이 있습니다. GPT-5.4 nano는 Claude Haiku 4.5보다 입력 가격이 5분의 1 수준입니다. 그런데 Haiku 4.5는 OSWorld 컴퓨터 사용에서 50.7%를 기록했고(DataCamp 분석 기준), nano는 39.0%였습니다. 컴퓨터 사용만 본다면 더 비싼 Haiku가 앞선다는 결론이 나옵니다.
💡 가격 비교표를 나란히 놓고 보니 이런 흐름이 보입니다 — “저렴하면서 코딩을 잘 하는” 자리에 nano가 있지만, “저렴하면서 화면 조작도 잘 하는” 자리는 아직 경쟁자 없이 비어 있습니다.
Gemini 3.1 Flash-Lite($0.25/$1.50)는 GPQA Diamond에서 86.9%로 nano(82.8%)보다 높고, 가격도 nano보다 살짝 비쌉니다. 단순 지식 추론이 필요하다면 Flash-Lite도 대안이 됩니다. 어느 쪽이 낫다고 단정하기 전에 본인 워크로드의 병목이 코딩인지, 지식 추론인지, 컴퓨터 사용인지 먼저 확인하는 게 순서입니다.
OpenAI 그래프를 곧이곧대로 믿으면 안 되는 이유
OpenAI 공식 발표문에는 성능-레이턴시 상충관계를 보여주는 그래프가 포함됩니다. 그래프만 보면 nano가 mini 대비 거의 비슷한 성능을 훨씬 저렴하게 제공하는 것처럼 보입니다. 그런데 DataCamp의 분석이 이 부분을 짚었습니다.
그래프의 Y축이 35%에서 시작합니다. 0%가 아닙니다. 이 설정 덕분에 GPT-5.4와 nano의 격차가 실제보다 훨씬 크게 보입니다. Y축을 0%로 내리면 모델 간 차이는 훨씬 좁혀집니다. (출처: DataCamp 분석, datacamp.com/blog/gpt-5-4-mini-nano)
두 번째 문제는 레이턴시 수치가 실제 API 트래픽 측정이 아니라 시뮬레이션 추정치라는 점입니다. OpenAI 발표문에 직접 나옵니다: “레이턴시 추정치는 프로덕션 행동을 시뮬레이션해 산출한 값이며, 실제 레이턴시는 크게 다를 수 있습니다.” (출처: OpenAI 공식 블로그, 2026.03.17)
그런데 실제로 API를 써본 개발자들의 측정(Hacker News)에서 nano는 약 200 t/s 수준이었습니다. Gemini 3 Flash가 130 t/s 수준이었으니, 속도 자체는 OpenAI 공식 주장이 어느 정도 현실에 부합합니다. 단, 이 측정은 출시 당일 로드가 낮은 상태에서 이뤄진 값이라, 트래픽이 몰리면 달라질 수 있습니다. (출처: Hacker News, 2026.03.17)
💡 OpenAI 공식 발표문과 독립적인 측정값을 나란히 보면 이런 차이가 보입니다 — 그래프는 과장됐지만, 속도 자체는 현실적입니다. 의사결정에 그래프 모양이 아닌 절대 수치를 쓰는 게 맞습니다.
nano를 써야 할 상황, 쓰면 안 될 상황
지금까지 수치를 쭉 보면 nano가 잘 맞는 상황과 아닌 상황이 갈립니다. 공식 문서와 벤치마크를 교차하면 이렇게 정리됩니다.
✅ nano가 잘 맞는 상황
- 코드 서브에이전트 병렬 실행 — 메인 모델(GPT-5.4 또는 Opus)이 계획하고, nano가 파일 검색·간단한 패치·문서 추출을 빠르게 처리하는 구조. Codex가 공식 지원하는 아키텍처입니다.
- 대규모 분류·추출 파이프라인 — 수백만 개 레코드를 라벨링하거나 구조화 데이터로 변환할 때. $0.20/1M 입력이면 1억 토큰에 $20입니다. 단순 반복 작업에서 비용 차이가 결정적입니다.
- 응답 속도가 UX를 결정하는 서비스 — 코딩 어시스턴트, 실시간 제안 기능처럼 200ms 이하 응답이 필요한 경우. 200 t/s는 체감 속도에서 차이를 만듭니다.
- SWE-Bench 수준의 코드 수정 — 코딩 성능(52.4%)이 구 mini(45.7%)보다 높아, 코드베이스 내 단순 버그 픽스 자동화에 충분한 수준입니다.
❌ nano를 쓰면 안 되는 상황
- 스크린샷 기반 UI 에이전트 — OSWorld-Verified 39%는 구형 GPT-5 mini(42%)보다 낮습니다. 화면을 보고 클릭·입력을 결정하는 에이전트라면 mini나 Haiku 4.5가 낫습니다.
- 긴 컨텍스트 멀티 레퍼런스 작업 — 64K~128K 범위 MRCR(다중 참조 검색) 벤치마크에서 nano는 44.2%로 GPT-5.4(86.0%)의 절반 수준입니다. 여러 문서를 교차 참조해야 하는 리서치·법률 요약 작업에는 적합하지 않습니다.
- ChatGPT 사용자 — nano는 API 전용입니다. ChatGPT 웹·앱에서는 선택지 자체가 없습니다.
결론적으로, nano는 “단일 작업용 AI”가 아니라 “에이전틱 시스템 내 부품”으로 설계된 모델입니다. 혼자 쓰는 도구보다 큰 시스템에서 하위 역할을 담당할 때 가격 대비 효과가 극대화됩니다.
Q&A 5가지
마치며
GPT-5.4 nano를 한 줄로 요약하면 “코딩 서브에이전트에는 역대급 가성비, 화면 조작 에이전트에는 쓰지 마세요”입니다. 12배 싸다는 숫자에만 눈이 가면 컴퓨터 사용 쪽에서 구형 모델보다 낮은 성능을 그냥 지나치게 됩니다.
솔직히 말하면, 단독 대화형 AI로 nano를 쓰는 건 권하기 어렵습니다. ChatGPT에서도 안 되고, 긴 문서 교차 참조도 약합니다. 그런데 에이전틱 파이프라인에서 반복적인 분류·추출·코드 패치 역할로만 쓴다면 이만한 모델이 없습니다. 코딩 성능이 전 세대 mini를 넘은 소형 모델을 $0.20으로 쓸 수 있다는 건 6개월 전이라면 플래그십 가격대가 필요했던 성능입니다.
모델 선택에서 중요한 건 “어느 모델이 가장 좋냐”가 아니라 “내 시스템의 어느 단계에 어떤 크기의 모델이 맞냐”입니다. nano는 그 맥락에서 꽤 날카로운 선택지입니다.
📚 본 포스팅 참고 자료
본 포스팅은 2026년 03월 23일 기준으로 작성되었습니다. OpenAI의 서비스 정책·API 가격·모델 기능은 업데이트로 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 모든 수치는 OpenAI 공식 발표 기준이나 실제 운영 환경에 따라 다를 수 있습니다. 투자·비즈니스 의사결정에는 반드시 최신 공식 문서를 직접 확인하시기 바랍니다.











댓글 남기기