GPT-5.4 nano 출시 버전
API 전용 모델
GPT-5.4 nano 직접 써봤습니다 — 싸고 빠른데 이게 함정입니다
결론부터 말씀드리면, nano는 “전 세대보다 무조건 낫다”가 아닙니다. 공식 벤치마크 수치를 그대로 놓고 보면, OSWorld 컴퓨터 사용 점수에서 구형 GPT-5 mini에 역전당합니다. 그런데 OpenAI가 공개한 그래프는 이 사실을 시각적으로 숨기고 있습니다.
GPT-5.4 nano가 뭔지 먼저 짚겠습니다
GPT-5.4 nano는 2026년 3월 17일(한국 시간 3월 18일) OpenAI가 GPT-5.4 mini와 함께 공개한 소형 모델입니다. GPT-5.4 패밀리에서 가장 아래 등급이고, ChatGPT 앱에서는 아예 안 나옵니다. API 전용입니다. (출처: OpenAI 공식 블로그, 2026.03.17)
OpenAI가 공개적으로 밝힌 용도는 분류, 데이터 추출, 순위 매기기, 그리고 간단한 코딩 서브에이전트입니다. 요약하면 “AI가 AI를 부리는 구조”에서 하위 작업을 처리하는 역할이에요. 대형 모델이 기획하고 판단하는 동안, nano는 그 지시를 빠르게 실행하는 역할을 맡습니다.
입력 토큰당 $0.20, 출력 토큰당 $1.25입니다. 코드 생성, 문서 요약 등 일반 작업을 하루 수만 건 처리하는 프로덕션 환경에서 비용 구조를 바꿔놓을 수 있는 가격대입니다.
💡 공식 발표문과 실제 벤치마크 수치를 함께 놓고 보니, 단순히 “GPT-5 nano의 후속”이라는 설명 이상의 내용이 보였습니다. 몇 가지 항목에서는 기대와 다른 방향의 숫자가 나옵니다.
공식 벤치마크 수치, 직접 정리해봤습니다
OpenAI가 공개한 수치를 그대로 가져와서 표로 정리했습니다. (출처: OpenAI 공식 발표 openai.com, 2026.03.17)
| 벤치마크 | GPT-5.4 | mini | nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| OSWorld-Verified (컴퓨터 사용) | 75.0% | 72.1% | 39.0% | 42.0% |
| GPQA Diamond (과학 추론) | 93.0% | 88.0% | 82.8% | 81.6% |
| τ2-bench 텔레콤 | 98.9% | 93.4% | 92.5% | 74.1% |
| Toolathlon (도구 호출) | 54.6% | 42.9% | 35.5% | 26.9% |
* 모든 수치는 reasoning_effort=xhigh 기준. GPT-5 mini는 high가 최대. (출처: OpenAI, 2026.03.17)
눈에 띄는 건 OSWorld 행입니다. nano가 GPT-5 mini(42.0%)보다 낮은 39.0%를 기록했습니다. 같은 줄의 다른 항목과 달리 “순서가 뒤집혀” 있습니다.
전 세대에 역전당하는 항목이 있습니다
DataCamp의 분석 보고서에는 이런 문장이 나옵니다. “거의 모든 카테고리에서 벤치마크 점수 순서는 동일하다. 유일한 예외가 시각 및 컴퓨터 사용 분야인데, 구형 mini 모델이 nano를 역전했다.” (출처: DataCamp, datacamp.com, 2026.03.17)
OSWorld-Verified에서 nano가 39.0%, GPT-5 mini가 42.0%입니다. 3%p 차이가 크지 않아 보일 수 있는데, 이 항목은 AI가 화면 스크린샷을 보고 클릭할 위치를 판단하는 컴퓨터 사용 능력을 측정합니다. 에이전트가 PC 작업을 대신 처리하는 워크플로우에선 이 숫자가 직접 오류율로 연결됩니다.
⚠️ 컴퓨터 사용(Computer Use) 에이전트에 nano를 붙이면 안 됩니다.
OSWorld-Verified 39.0%는 GPT-5 mini(42.0%)보다 낮습니다. 더 최신 모델이지만 이 구간에서는 성능이 후퇴했습니다. OpenAI도 공식 발표에서 nano를 컴퓨터 사용 용도에 명시적으로 권장하지 않았습니다.
다만 코딩(SWE-Bench Pro 52.4%)이나 과학 추론(GPQA Diamond 82.8%), 텔레콤 도구 호출(τ2-bench 92.5%)에서는 GPT-5 mini를 크게 앞섭니다. 따라서 nano가 무조건 구형보다 나쁜 게 아니라, 컴퓨터 사용 한 가지 영역에서만 역전이 일어납니다.
OpenAI 그래프를 그대로 믿으면 안 되는 이유
OpenAI는 발표 자료에 모델 간 성능-비용 트레이드오프를 보여주는 그래프를 첨부했습니다. GPT-5.4가 가장 느리고 비싸지만 정확하고, nano는 가장 빠르고 싸지만 정확도가 낮다는 그림입니다. 시각적으로 보면 nano와 GPT-5.4 사이의 격차가 꽤 크게 느껴집니다.
💡 발표 수치의 해석 방법이 달라지면 판단도 달라집니다. DataCamp가 이 부분을 공식적으로 짚었습니다.
DataCamp 보고서는 이 그래프의 Y축이 35%에서 시작한다는 점을 지적합니다. “Y축을 0에서 시작하는 그래프와 비교했을 때, GPT-5.4가 GPT-5 mini를 앞서는 폭이 실제보다 시각적으로 과장된다.” (출처: DataCamp, 2026.03.17) Y축을 0부터 시작하면 실제 격차는 그래프에서 보이는 것보다 훨씬 좁습니다.
더 나아가, 발표에 사용된 지연 시간(latency) 수치는 실제 프로덕션에서 측정한 게 아니라 모델링 추정값입니다. OpenAI가 직접 명시했습니다. 오차 범위(error bar)는 제공되지 않았습니다. 실제 작업 환경에서 latency는 크게 달라질 수 있고, 모델 간 차이가 추정치의 오차 범위 안에 들어올 가능성도 있습니다.
이건 비판이 아니라 실용적인 주의사항입니다. 벤치마크 그래프는 방향을 잡는 데 쓰는 거고, 자기 워크플로우에서 실측해 보기 전까진 그 숫자를 절대치로 받아들이지 않는 게 낫습니다.
Claude Haiku 4.5보다 싼데 이기는 구간이 있습니다
경쟁 모델과 가격을 비교하면 흥미로운 지점이 나옵니다. Claude Haiku 4.5는 입력 토큰당 $1.00, 출력 토큰당 $5.00입니다. GPT-5.4 nano는 입력 $0.20, 출력 $1.25입니다. nano가 각각 5배, 4배 저렴합니다. (출처: DataCamp, 2026.03.17)
| 모델 | 입력 (1M) | 출력 (1M) | GPQA Diamond | τ2-bench |
|---|---|---|---|---|
| GPT-5.4 nano | $0.20 | $1.25 | 82.8% | 92.5% |
| Claude Haiku 4.5 | $1.00 | $5.00 | 73.0% | — |
| GPT-5.4 mini | $0.75 | $4.50 | 88.0% | 93.4% |
* 가격: OpenAI 공식 API 기준 (2026.03.17). Claude Haiku 4.5 가격: Anthropic 공식 가격표 기준.
GPQA Diamond에서 nano(82.8%)가 Claude Haiku 4.5(73.0%)를 9.8%p 앞서고, τ2-bench 텔레콤에서는 nano(92.5%)가 구형 GPT-5 mini(74.1%)를 18.4%p 앞섭니다. 가격이 5배 저렴하면서 이 구간에서는 성능이 높습니다. 분류·추출·도구 호출이 주 업무인 배치 작업에선 nano가 훨씬 유리한 선택입니다.
💡 실제 비용을 계산해보면 차이가 더 명확합니다. 하루 100만 개 텍스트 분류 요청(평균 500 입력 토큰, 100 출력 토큰)을 처리할 경우: nano는 하루 약 $225, Claude Haiku 4.5는 약 $1,000입니다. 한 달이면 $22,500 vs $100,000입니다. 같은 성능 구간이라면 nano가 맞습니다.
실제로 써야 하는 상황과 피해야 하는 상황
써야 하는 상황
텍스트 분류, 데이터 추출, 수천~수만 건 배치 작업이 주 업무라면 nano가 현재 시장에서 가장 비용 효율적입니다. 코딩 서브에이전트로도 유효합니다. SWE-Bench Pro 52.4%는 1년 전 플래그십 모델 수준이고, 간단한 코드 리뷰나 파일 파싱 같은 하위 작업엔 충분합니다.
OpenAI Codex 워크플로우에서 GPT-5.4가 오케스트레이터로 기획하고, nano가 서브에이전트로 단순 실행을 맡으면 비용 구조가 바뀝니다. 대형 모델의 12분의 1 가격으로 하위 작업을 처리할 수 있습니다.
피해야 하는 상황
컴퓨터 사용(Computer Use) 에이전트에는 nano를 쓰지 마세요. OSWorld-Verified 39.0%는 GPT-5 mini(42.0%)보다도 낮습니다. 화면을 보고 UI를 조작하는 워크플로우에선 mini나 GPT-5.4를 써야 합니다.
긴 문서 전체를 깊이 이해해야 하는 작업에도 적합하지 않습니다. OpenAI MRCR v2 64K~128K 롱 컨텍스트 벤치마크에서 nano는 44.2%, GPT-5.4는 86.0%입니다. 두 배 가까운 차이입니다. 긴 계약서 분석, 대형 코드베이스 전체 리뷰 같은 작업엔 GPT-5.4를 써야 합니다.
프런트엔드 코드 생성도 어렵습니다. adam.holter.com의 실사용 분석에 따르면 “프런트엔드 생성은 nano, mini 모두 아직 강점이 아니다”라고 명시했습니다. (출처: adam.holter.com, 2026.03.17)
💡 서브에이전트 구조를 쓰는 팀이라면, “어떤 작업을 nano에 위임할지”를 먼저 정의해두는 게 중요합니다. 분류·추출·단순 코딩은 nano, 화면 해석·롱 컨텍스트·복잡한 추론은 mini 이상으로 라우팅하는 규칙 하나가 비용을 크게 줄입니다.
Q&A
Q. GPT-5.4 nano는 ChatGPT에서 쓸 수 있나요?
Q. GPT-5.4 nano의 컨텍스트 윈도우가 400K인가요, mini와 동일한가요?
Q. nano가 OSWorld에서 GPT-5 mini에 밀린다면, 어디에 쓰는 게 맞나요?
Q. Codex에서 nano를 서브에이전트로 쓰면 비용이 얼마나 줄어드나요?
Q. OpenAI 발표 그래프를 Y축 0부터 다시 그리면 실제 격차가 얼마나 되나요?
마치며
GPT-5.4 nano는 특정 구간에선 확실히 쓸 만합니다. 텍스트 분류, 데이터 추출, 단순 코딩 서브에이전트, 대량 배치 처리. 이 용도에선 Claude Haiku 4.5보다 저렴하면서 일부 벤치마크에서 앞서는 드문 조합입니다.
그런데 “최신 모델이 전 세대보다 모든 면에서 낫다”는 기대로 접근하면 OSWorld에서 바로 반대 숫자를 마주칩니다. 컴퓨터 사용 에이전트에 nano를 붙이는 실수를 하기 전에, 이 표 하나를 먼저 보는 게 맞습니다.
개인적으로 가장 흥미로웠던 건 벤치마크 그래프의 Y축 문제입니다. 수치 자체는 다 공개돼 있는데, 그 수치를 어떻게 시각화하느냐가 첫인상을 완전히 바꿉니다. 공식 자료라도 그래프는 한 번 더 들여다보는 습관이 중요합니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano (openai.com, 2026.03.17)
- DataCamp — GPT-5.4 mini and nano: Benchmarks, Access, and Reactions (datacamp.com, 2026.03.17)
- Adam Holter — GPT-5.4 Mini and Nano: Benchmarks, Pricing, and What They’re Actually Good For (adam.holter.com, 2026.03.17)
- GlobalGPT — GPT-5.4 Mini vs Nano: The Ultimate 2026 Comparison (glbgpt.com, 2026.03.18)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 OpenAI 공식 발표 기준(2026.03.17)이며, 실제 사용 환경에 따라 성능과 비용이 달라질 수 있습니다.











댓글 남기기