gpt-5.4-mini-2026-03-17
IT/AI
GPT-5.4 mini 직접 써봤습니다
— nano는 이게 안 됩니다
2026년 3월 17일, OpenAI가 GPT-5.4 mini와 nano를 동시 출시했습니다. “작고 싸고 빠르다”는 설명은 맞는데, 결론부터 말씀드리면 두 모델은 쓸 수 있는 구간이 완전히 다릅니다. 특히 nano는 공식 문서에서 computer use와 tool search가 지원되지 않는다고 명시하고 있습니다. 이걸 모르고 에이전트에 붙이면 막힙니다.
mini와 nano, 뭐가 다른지 한 줄로 정리하면
GPT-5.4 mini는 “코딩·에이전트·컴퓨터 사용까지 버티는 빠른 기본 모델”이고, nano는 “분류·추출·단순 반복을 최대한 싸게 대량 처리하는 모델”입니다. OpenAI 공식 발표문에서도 mini를 “coding, computer use, and subagents에 최적화된 가장 강력한 소형 모델”로, nano를 “GPT-5.4 패밀리 중 가장 작고 저렴한 모델”로 구분하고 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)
두 모델을 같은 “소형 모델”로 묶어서 비교하면 오히려 헷갈립니다. 쓰임새가 다른 두 제품을 같은 카테고리에 넣어놓은 것에 가깝습니다. 실제로 어떤 기능을 지원하느냐가 갈리는 지점이 생각보다 명확합니다.
지식 기준일은 둘 다 2025년 8월 31일이고, 컨텍스트 윈도우도 400,000 토큰으로 동일합니다. 그래서 겉보기 스펙은 비슷해 보이는데, 막상 도구를 붙이거나 긴 문서를 다루기 시작하면 차이가 드러납니다. (출처: OpenAI Developer 모델 문서, 2026.03.17)
공식 벤치마크 수치, 직접 확인했습니다
OpenAI가 공개한 공식 벤치마크 수치를 정리하면 다음과 같습니다. 비교 기준은 이전 세대 GPT-5 mini(reasoning_effort: high)입니다. (출처: OpenAI 공식 발표, 2026.03.17)
| 벤치마크 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini (구형) |
|---|---|---|---|
| SWE-Bench Pro (코딩) | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 (터미널 작업) | 60.0% | 46.3% | 38.2% |
| OSWorld-Verified (컴퓨터 사용) | 72.1% | 39.0% | 42.0% |
| Toolathlon (도구 사용) | 42.9% | 35.5% | 26.9% |
| GPQA Diamond (지식 추론) | 88.0% | 82.8% | 81.6% |
코딩과 추론에서는 mini와 nano 모두 구형을 크게 앞서지만, OSWorld(컴퓨터를 직접 조작하는 에이전트 작업)에서 nano의 점수가 39.0%로 구형 GPT-5 mini(42.0%)보다 낮습니다. 단순히 “새 모델 = 더 좋다”는 공식이 통하지 않는 구간이 있습니다.
모든 벤치마크는 reasoning_effort xhigh 조건에서 측정됐습니다. 실제 API 호출 시 reasoning_effort 설정에 따라 성능이 달라지므로, 표의 수치는 해당 설정에서의 상한값으로 이해하는 게 맞습니다. (출처: OpenAI 공식 발표, 2026.03.17)
nano가 구형 모델보다 낮은 구간이 있습니다
💡 공식 발표문과 실제 벤치마크 숫자를 같이 놓고 보니 이런 차이가 보였습니다. “최신 모델은 항상 구형보다 낫다”고 기대했던 분이라면 OSWorld 수치를 한 번 직접 확인해보시기 바랍니다.
OSWorld-Verified는 AI 에이전트가 스크린샷을 보고 마우스·키보드를 조작해 실제 컴퓨터 환경의 작업을 완료하는 벤치마크입니다. GPT-5.4 nano의 점수는 39.0%인데, 이전 세대인 GPT-5 mini(high 기준)는 42.0%입니다. 즉 nano는 컴퓨터 사용 에이전트 작업에서 구형 모델에 비해 성능이 낮습니다. (출처: OpenAI 공식 발표 벤치마크 표, 2026.03.17)
이 차이가 생긴 이유는 OpenAI가 공식 답변을 내놓지 않은 부분입니다. 다만 개발자 문서에서는 nano가 computer use와 tool search를 아예 지원하지 않는 모델로 명시하고 있습니다. 벤치마크 수치는 연구 환경에서 측정된 것이지만, 실제 API에서는 computer use 기능 자체를 호출할 수 없습니다. (출처: OpenAI Developer 문서, 2026.03.17)
결론적으로 nano를 에이전트 워크플로에 붙이려 한다면, 코딩·도구 호출 정도까지는 가능하지만 “화면을 보고 조작”하는 수준의 작업은 구현 자체가 막힙니다. nano를 선택할 때 이 지점을 먼저 확인해야 합니다.
가격만 보면 nano가 압도적인데, 함정이 있습니다
입력 기준으로 nano($0.20/1M 토큰)는 mini($0.75/1M 토큰)의 약 4분의 1 수준입니다. 출력도 nano($1.25)가 mini($4.50)의 28% 수준입니다. 단순 계산이라면 nano가 압도적으로 저렴합니다. (출처: OpenAI Developer 문서, 2026.03.17)
| 모델 | 입력 (1M 토큰) | 캐시 입력 | 출력 (1M 토큰) |
|---|---|---|---|
| GPT-5.4 mini | $0.75 | $0.075 | $4.50 |
| GPT-5.4 nano | $0.20 | $0.02 | $1.25 |
| Gemini 3.1 Flash-Lite (비교) | $0.25 | — | $1.50 |
| Claude Haiku 4.5 (비교) | $1.00 | — | $5.00 |
그런데 이게 전체 비용(TCO)이 되는 것은 아닙니다. 작업이 복잡할수록 nano는 재시도·검증·후처리 비용이 붙습니다. 특히 정답 형식이 고정돼 있지 않거나 조건이 여러 개인 태스크에서 nano가 오답을 냈을 때 mini로 재처리하는 구조가 되면, 오히려 총비용이 늘어납니다.
nano는 고객 문의 1차 분류, 텍스트에서 필드 추출(이름·날짜·번호), 감성 분석처럼 정답 형식이 짧고 명확한 작업에서 비용 이점이 그대로 유지됩니다. 반대로 “왜 그랬는지 설명해봐”처럼 자유 형식 응답이 필요한 구간은 nano를 쓸수록 검증 비용이 늘어날 수 있습니다.
mini의 장문 컨텍스트 성능이 급락하는 조건
💡 “400K 컨텍스트 지원”이라는 숫자와, 실제로 그 컨텍스트를 얼마나 정확하게 처리하는지는 다른 문제입니다. 공식 벤치마크 수치를 구간별로 놓고 보면 그 차이가 바로 보입니다.
mini와 nano는 둘 다 400,000 토큰 컨텍스트 윈도우를 지원합니다. 그런데 OpenAI가 공개한 MRCR v2 8-needle 벤치마크 수치를 구간별로 보면 다음과 같습니다. (출처: OpenAI 공식 발표, 2026.03.17)
| 컨텍스트 구간 | GPT-5.4 (전체) | GPT-5.4 mini | GPT-5.4 nano |
|---|---|---|---|
| 8K~16K 토큰 | 91.4% | — | — |
| 64K~128K 토큰 | 86.0% | 47.7% | 44.2% |
| 128K~256K 토큰 | 79.3% | 33.6% | 33.1% |
GPT-5.4 전체 모델은 64K~128K 구간에서도 86.0%를 유지하지만, mini는 같은 구간에서 47.7%로 절반 수준으로 떨어집니다. 128K~256K 구간이 되면 33.6%까지 낮아집니다. 400K를 지원하는 건 맞지만, 그 전체 구간에서 동일한 정확도를 기대하면 안 된다는 뜻입니다.
이 벤치마크(MRCR v2)는 긴 문서 안에 숨겨진 여러 개의 정보를 정확히 찾아내는 테스트입니다. 예를 들어 계약서 전체를 올리고 “7번 조항에서 5번째 예외 사항을 찾아줘”처럼 특정 위치의 정보를 정확히 참조해야 하는 작업이 여기에 해당합니다. mini나 nano를 이런 용도로 쓸 계획이라면, 64K 이상 구간에서 결과를 먼저 검증해보는 것이 좋습니다.
결국 어떤 작업에 무엇을 쓰면 되는가
실무에서 가장 무난한 구성은 mini를 기본값으로 두고, 앞단의 저위험·고빈도 구간만 nano로 분기하는 방식입니다. 이건 OpenAI 공식 발표 직후 개발자들 사이에서 가장 빠르게 합의된 운영 패턴이기도 합니다.
GPT-5.4 mini가 맞는 상황
- 코딩·리팩터링·디버깅처럼 맥락 유지가 중요한 개발 작업
- 스크린샷을 보고 마우스·키보드를 조작하는 에이전트 (computer use 지원)
- 도구가 많은 MCP 서버 환경 (tool search 지원)
- Codex 서브에이전트로 사용할 때 — mini가 GPT-5.4의 30% 할당량만 소모
- 회의록 요약, 정책 문서 초안처럼 조건이 복잡한 글쓰기
GPT-5.4 nano가 맞는 상황
- 고객 문의 1차 분류·라우팅 (짧고 반복적인 판단)
- 텍스트에서 이름·날짜·주문번호 추출 (정답 형식이 고정)
- 감성 분석, 스팸 탐지, 대량 배치 작업
- 제목·태그 생성처럼 짧은 출력이 반복되는 경우
- API 전용 초저가 처리 ($0.20/1M 토큰 — ChatGPT에서는 사용 불가)
💡 nano는 ChatGPT에서 직접 쓸 수 없습니다. API 전용 모델이며, ChatGPT에서 사용 가능한 소형 모델은 mini입니다. (출처: OpenAI 공식 발표, 2026.03.17) 이 차이가 실제로 꽤 중요합니다.
ChatGPT Free·Go 플랜에서는 mini가 기본 모델로 탑재됩니다. “GPT-5.4 Thinking mini”라는 이름으로 표시되며, GPT-5.4(전체 모델)의 Thinking 버전인 GPT-5.4 Thinking과는 별도입니다. 혼동하기 쉬운 부분이라 짚어둡니다.
Q&A 5가지
마치며
GPT-5.4 mini는 “소형 모델”이라는 이름에 비해 꽤 넓은 작업을 소화합니다. 컴퓨터 사용, 도구 검색, 코딩 에이전트까지 mini 하나로 처리할 수 있고, ChatGPT 무료 플랜에서도 기본 모델로 쓸 수 있습니다. GPT-5 mini 대비 2배 이상 빠른 속도도 체감 차이가 납니다.
nano는 다릅니다. API 전용이고, computer use와 tool search를 지원하지 않습니다. 에이전트가 아닌 “대량 처리용 분류·추출 엔진”으로 사용할 때 비용 이점이 살아납니다. OSWorld 성능이 구형 GPT-5 mini보다 낮다는 점도 에이전트 작업에 붙이기 전에 꼭 확인해야 하는 부분입니다.
솔직히 말하면, nano는 쓸 수 있는 곳이 꽤 좁습니다. 하지만 그 좁은 곳에서는 압도적으로 저렴합니다. mini를 기본값으로 두고 nano는 ‘비용 방어선’으로 쓰는 구조가 지금으로선 가장 현실적인 선택입니다.
본 포스팅 참고 자료
⚠️ 본 포스팅은 2026년 3월 17일 기준 OpenAI 공식 자료를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격, 지원 기능, 벤치마크 수치는 OpenAI 공식 문서에서 최신 정보를 직접 확인하시기 바랍니다.











댓글 남기기