GPT-5.4 nano, API에서만 된다는 걸 알고 계셨나요?

Published on

in

GPT-5.4 nano, API에서만 된다는 걸 알고 계셨나요?

2026.03.18 출시 기준
GPT-5.4 nano
API 전용

GPT-5.4 nano, API에서만 된다는 걸 알고 계셨나요?

OpenAI가 2026년 3월 17일(현지 기준) 조용히 공개한 GPT-5.4 nano. 이름만 보면 ChatGPT에서 바로 쓸 수 있을 것 같지만, 공식 문서에 딱 한 줄로 나와 있습니다: “GPT-5.4 nano is only available in the API.” ChatGPT Free도 아니고 Plus도 아닙니다. API 키가 없으면 시작조차 못합니다. 그리고 값이 싸졌다는 말도 다시 봐야 합니다.

$0.20
입력 1M 토큰당
400K
컨텍스트 윈도우
API 전용
ChatGPT 미지원

ChatGPT에서 못 쓰는 이유가 따로 있습니다

GPT-5.4 nano가 공개된 직후 많은 사람들이 ChatGPT를 열어 모델 선택 드롭다운을 찾아봤을 겁니다. 없습니다. 공식 발표문에 이유도 따로 나오지 않았습니다. 다만 OpenAI가 공식 문서에 명시한 내용은 명확합니다. “GPT-5.4 nano is only available in the API and costs $0.20 per 1M input tokens and $1.25 per 1M output tokens.” (출처: OpenAI 공식 발표, 2026.03.17)

ChatGPT에서는 접근 자체가 막혀 있습니다. GPT-5.4 mini는 ChatGPT Free와 Go 사용자에게 Thinking 기능으로 제공되고, Plus·Pro 사용자에게는 속도 제한 대체 모델로 제공되지만, nano는 그 어떤 ChatGPT 플랜에도 들어있지 않습니다. API 키를 발급받고 직접 호출하거나, Codex 서브에이전트 설정에서 모델을 지정하는 방식만 가능합니다.

💡 공식 발표문과 실제 접근 흐름을 같이 놓고 보니 이런 차이가 보였습니다

nano의 설계 목적이 “대화형 인터페이스”가 아닌 “대량 처리 파이프라인”이라는 점이 접근 경로 자체에서 드러납니다. 사람이 직접 물어보는 용도가 아니라, 시스템이 자동으로 수천 번 호출하는 용도로 만든 모델입니다. ChatGPT UI가 없는 게 버그가 아니라 설계입니다.

솔직히 말하면, 이 모델을 쓸 수 있는 사람은 처음부터 개발자로 좁혀집니다. API를 직접 쓰거나 Codex를 다루는 사람이 아니라면 nano를 실제로 만질 방법이 현재로서는 없습니다.

값이 싸졌다는 말, 기준을 보면 달라집니다

GPT-5.4 nano의 가격은 입력 1M 토큰당 $0.20, 출력 1M 토큰당 $1.25입니다. (출처: OpenAI 공식 발표, 2026.03.17) 언뜻 보면 저렴해 보입니다. 그런데 전 세대인 GPT-5 nano의 가격은 입력 $0.05, 출력 $0.40이었습니다. 같은 “nano” 이름을 달고 있지만 가격이 입력 기준 4배, 출력 기준 약 3배 올랐습니다.

모델 입력 (1M) 출력 (1M) 이전 대비
GPT-5 nano (이전) $0.05 $0.40 기준
GPT-5.4 nano (신규) $0.20 $1.25 4배↑
GPT-5.4 mini $0.75 $4.50
Gemini 3.1 Flash Lite $0.025 $0.10

(출처: OpenAI 공식 발표 2026.03.17 / Google DeepMind 공식 가격 페이지)

물론 성능이 비교 불가능하게 올라갔으니 “한 등급 위의 성능을 한 등급 아래 가격에 제공한다”는 해석도 맞습니다. 하지만 GPT-5 nano를 쓰던 파이프라인이 GPT-5.4 nano로 그대로 전환하면 같은 호출량에서 비용이 4배로 늘어납니다. “AI 비용이 계속 내려가고 있다”는 말이 실무 예산 계획에서는 그대로 통하지 않는 이유입니다.

또한 경쟁 모델인 Google Gemini 3.1 Flash Lite($0.025/1M)와 비교하면 nano($0.20/1M)는 여전히 8배 비쌉니다. 단순 텍스트 분류나 데이터 추출 작업에서 비용만 놓고 보면 nano가 최선이 아닐 수 있습니다.

벤치마크 수치가 말해주는 것과 침묵하는 것

공식 발표에 담긴 벤치마크 수치는 인상적입니다. GPT-5.4 nano가 SWE-Bench Pro(공개)에서 52.4%를 기록했는데, 이전 세대 GPT-5 mini의 45.7%보다 높습니다. (출처: OpenAI 공식 발표, 2026.03.17) 코딩 작업에서 nano가 전 세대의 mini를 이겼다는 뜻입니다. 계층을 뛰어넘는 성능 향상입니다.

벤치마크 GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
SWE-Bench Pro 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 75.1% 60.0% 46.3% 38.2%
GPQA Diamond 93.0% 88.0% 82.8% 81.6%
OSWorld-Verified 75.0% 72.1% 39.0% 42.0%
Long Context (64K↑) 86.0% 47.7% 44.2% 35.1%

(출처: OpenAI 공식 발표, 2026.03.17 / reasoning_effort: xhigh 기준)

그런데 OSWorld(실제 컴퓨터 GUI 조작 벤치마크) 점수가 눈에 띕니다. GPT-5.4 mini는 72.1%로 GPT-5 mini(42.0%)를 크게 앞서지만, nano는 39.0%로 오히려 GPT-5 mini보다 낮습니다. 화면 조작, 스크린샷 해석, 브라우저 탐색처럼 “컴퓨터를 직접 쓰는 작업”에서 nano는 전 세대 mini에도 못 미칩니다. 스크린 캡처나 GUI 자동화가 필요한 파이프라인에 nano를 쓰면 기대와 다른 결과를 만납니다.

Long Context 성능도 주목할 지점입니다. 64K~128K 구간에서 nano는 44.2%로, GPT-5.4 본체(86.0%)의 절반 수준입니다. 400K 컨텍스트 윈도우를 지원한다고 해서 긴 문서를 잘 소화한다는 뜻은 아닙니다. 긴 입력을 “처리는 하지만 정확하게 찾아내지 못할 수 있다”는 점을 예산에 반영해야 합니다.

서브에이전트로 쓸 때 오히려 비용이 불어나는 상황

OpenAI가 nano를 가장 강하게 밀어붙이는 사용처는 “서브에이전트”입니다. Codex에서 상위 모델이 복잡한 계획을 세우는 동안, nano가 병렬로 단순 작업을 빠르게 처리하는 구조입니다. 이 패턴에서 nano는 GPT-5.4 quota의 불과 일부 비용만 사용하니 이론상 매력적입니다.

💡 실제 파이프라인 구성과 공식 문서를 함께 놓고 보니 이런 함정이 보였습니다

Codex 공식 문서는 이렇게 경고합니다: “each subagent does its own model and tool work, subagent workflows consume more tokens than comparable single-agent runs.” (출처: OpenAI Codex 공식 문서, developers.openai.com/codex/subagents/) 서브에이전트를 쓴다는 것 자체가 토큰 소비를 늘린다는 뜻입니다.

더 중요한 함정은 컨텍스트 오염(context pollution)입니다. 비용을 줄이려고 nano를 하위 에이전트로 쓰는 구성이 많은데, 상위 오케스트레이터가 전체 대화 히스토리를 그대로 nano에게 넘기는 경우가 빈번합니다. 그러면 “저렴한” 추출 단계에서 3만~5만 토큰의 불필요한 입력이 발생하고, nano의 비용 이점이 사라집니다. 게다가 long context 정확도가 낮은 nano에서는 긴 컨텍스트가 성능 저하까지 함께 유발합니다.

Codex 공식 문서에서 agents.max_depth 기본값은 1입니다. “Keep the default unless you specifically need recursive delegation. Raising this value can turn broad delegation instructions into repeated fan-out, which increases token usage, latency, and local resource consumption.” (출처: OpenAI Codex 공식 문서, 2026.03) 깊이를 높이면 토큰이 폭발합니다. nano가 싸다는 전제 자체가 파이프라인 설계에 따라 뒤집힙니다.

nano를 쓰면 유리한 작업, 쓰면 손해인 작업

OpenAI 공식 발표에서 nano의 권장 사용처로 명시된 항목은 분류(classification), 데이터 추출(data extraction), 순위 매기기(ranking), 그리고 단순 보조 작업을 처리하는 코딩 서브에이전트입니다. (출처: OpenAI 공식 발표, 2026.03.17) 이 범위를 벗어나면 효율이 급격히 떨어집니다.

작업 유형 nano 적합도 이유
이메일 수천 건 분류 ✅ 최적 짧은 입력 반복 호출, 비용 최소화
문서에서 날짜·금액 추출 ✅ 최적 구조화된 단순 추출, 빠른 처리
짧은 코드 스니펫 리뷰 ⚠️ 조건부 단순 패턴만 가능, 복잡 로직 불가
GUI 화면 조작·스크린샷 분석 ❌ 비추 OSWorld 39% — GPT-5 mini보다 낮음
긴 문서 요약 (100페이지+) ❌ 비추 Long context 44.2% — 누락 위험
멀티스텝 코딩 에이전트 메인 ❌ 비추 Terminal-Bench 46.3%, 복잡 추론 한계

(벤치마크 출처: OpenAI 공식 발표, 2026.03.17)

결국 nano가 빛나는 구간은 아주 명확합니다. 입력이 짧고, 작업이 반복적이며, 정답이 구조화된 형태로 나오는 경우입니다. 이 조건에서 벗어나기 시작하면 mini나 더 상위 모델로 올리는 게 총비용 면에서 오히려 유리한 경우가 생깁니다.

Codex 서브에이전트 설정에서 nano를 연결하는 방법

Codex CLI에서 nano를 서브에이전트로 쓰려면 프로젝트 경로의 .codex/agents/ 폴더에 TOML 파일을 만들면 됩니다. (출처: OpenAI Codex 공식 문서, developers.openai.com/codex/subagents/) 아래는 데이터 추출 전용으로 nano를 지정하는 예시입니다.

name = "extractor"
description = "구조화된 데이터 추출 전용 에이전트. 날짜, 금액, 이름 등 단순 정보 추출에 특화."
model = "gpt-5.4-nano"
model_reasoning_effort = "medium"
sandbox_mode = "read-only"
developer_instructions = """
주어진 텍스트에서 지정된 필드만 추출해서 JSON으로 반환해.
추론하거나 요약하지 말고, 없는 값은 null로 표시해.
"""

핵심은 model_reasoning_effort를 “medium” 또는 “low”로 설정하는 겁니다. xhigh로 올리면 토큰 사용량이 늘어 비용 이점이 줄어듭니다. 또한 sandbox_mode = "read-only"로 제한해서 불필요한 파일 쓰기 시도를 차단하는 게 안전합니다.

Codex가 이 에이전트를 쓸 때는 개별 호출마다 컨텍스트를 최대한 작게 넘기도록 오케스트레이터 프롬프트를 설계해야 합니다. 전체 대화 히스토리가 아니라 해당 작업에 필요한 정보만 잘라서 전달하는 게 nano의 비용 효율을 실제로 얻는 방법입니다.

자주 나오는 질문 5가지

Q1. ChatGPT Plus 구독자도 GPT-5.4 nano를 쓸 수 없나요?
네, ChatGPT Plus, Pro, Free 어떤 플랜도 현재 GPT-5.4 nano를 지원하지 않습니다. 공식 발표 시점(2026.03.17) 기준으로 nano는 오직 OpenAI API를 통해서만 접근 가능합니다. 향후 변경 여부는 OpenAI가 공식 발표를 내놓지 않은 부분입니다.
Q2. GPT-5.4 nano의 컨텍스트 윈도우가 400K인데 긴 문서도 잘 처리하나요?
윈도우가 400K라는 건 “이 정도 길이까지 입력 가능하다”는 의미고, “긴 문서에서 필요한 정보를 정확히 찾아낸다”는 보장은 아닙니다. 공식 벤치마크(OpenAI MRCR v2 8-needle 64K~128K)에서 nano는 44.2%로, GPT-5.4 본체의 86.0%의 절반 수준입니다. 100페이지 이상의 복잡한 문서 분석에는 mini 이상을 권장합니다.
Q3. GPT-5 nano에서 GPT-5.4 nano로 전환하면 비용이 절감되나요?
절감되지 않습니다. GPT-5 nano(입력 $0.05/1M)에서 GPT-5.4 nano(입력 $0.20/1M)로 전환하면 입력 비용이 4배, 출력 비용이 약 3배 증가합니다. “성능 대비 가격”은 개선됐지만 절대 비용은 올랐습니다.
Q4. Codex에서 nano를 서브에이전트로 설정하면 자동으로 비용이 절약되나요?
자동으로 절약되지 않습니다. 오케스트레이터가 전체 대화 히스토리를 그대로 nano에게 넘기면 불필요한 컨텍스트 처리 비용이 발생합니다. 비용 이점을 실제로 얻으려면 nano에 전달하는 컨텍스트를 최소화하는 파이프라인 설계가 필수입니다.
Q5. nano와 mini 중 어느 것을 선택해야 할까요?
입력이 짧고 반복적인 분류·추출 작업이라면 nano, 코딩·멀티모달·화면 조작이 포함된다면 mini가 맞습니다. 비용을 보면 nano가 mini($0.75/1M)보다 저렴하지만, 작업이 맞지 않으면 재시도 비용이 더 많이 발생할 수 있습니다. 작업 유형을 먼저 정의한 뒤 모델을 고르는 순서가 중요합니다.

마치며 — nano를 제대로 쓰려면 전제 조건이 있습니다

GPT-5.4 nano는 잘 쓰면 분명히 강력한 도구입니다. 하지만 “가장 싸고 빠른 AI”라는 말만 믿고 기존 파이프라인에 그냥 넣으면 기대와 다른 결과를 만날 가능성이 높습니다. 세 가지가 전제돼야 합니다. 첫째, API를 직접 다룰 수 있는 환경. 둘째, 작업이 분류·추출·순위 매기기처럼 구조화된 형태. 셋째, 컨텍스트를 최소화하는 파이프라인 설계. 이 세 가지가 충족되는 상황에서만 nano가 “싸고 빠른 모델”로 작동합니다.

개인적으로는 소형 모델의 세대 도약이 가장 흥미롭습니다. 플래그십 모델들끼리의 차이는 점점 좁아지는 반면, nano급 모델은 버전이 바뀔 때마다 “이전에는 불가능했던 일”이 가능해집니다. 실무 비용의 민주화는 결국 GPT-5.4 같은 거대 모델 가격 인하가 아니라, 이런 소형 모델의 성능 상향을 통해 이뤄지고 있습니다.

본 포스팅 참고 자료

  1. ① OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano (openai.com/index/introducing-gpt-5-4-mini-and-nano/)
  2. ② OpenAI Codex 공식 문서 — Subagents (developers.openai.com/codex/subagents/)
  3. ③ OpenAI 한국어 공식 페이지 — GPT-5.4 mini 및 nano 출시 (openai.com/ko-KR/index/introducing-gpt-5-4-mini-and-nano/)

본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 OpenAI 공식 웹사이트에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기