GPT-5.4 mini 출시
OpenAI 공식 문서 기반
GPT-5.4 mini, Free 사용자가 더 쓰는 이유
OpenAI가 2026년 3월 18일 출시한 GPT-5.4 mini. 결론부터 말씀드리면 Plus 플랜 사용자는 이 모델을 직접 선택할 수 없습니다. 오히려 Free와 Go 사용자가 더 적극적으로 쓸 수 있는 구조입니다. 공식 문서에 그대로 나와 있는 내용인데, 이 부분이 아직 거의 알려지지 않았습니다.
GPT-5.4 mini, 뭐가 달라졌나요?
GPT-5.4의 핵심 능력을 작은 몸에 담았습니다
(출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.18)
코딩 벤치마크에서 본 모델에 육박합니다
SWE-Bench Pro(실제 버그 수정 능력 평가)에서 GPT-5.4 mini는 54.4%를 기록했고, 본 모델 GPT-5.4는 57.7%입니다. 차이가 3.3%포인트에 불과합니다.
(출처: OpenAI 공식 블로그, 2026.03.18)
속도를 생각하면 코딩 보조 도구로는 충분히 경쟁력 있는 수치입니다.
nano도 함께 나왔습니다
같은 날 GPT-5.4 nano도 함께 출시됐습니다. 분류, 데이터 추출, 순위 매기기처럼 속도와 비용이 최우선인 작업에 맞게 설계된 모델로, API에서만 사용 가능합니다. ChatGPT 앱에서는 nano를 선택할 수 없습니다.
Plus 사용자가 이 모델을 직접 선택 못 하는 구조
💡 공식 릴리스 노트와 실제 ChatGPT 메뉴 구조를 같이 놓고 보니 이런 차이가 보였습니다.
모델 선택기에 GPT-5.4 mini는 없습니다
OpenAI 릴리스 노트에는 이렇게 나와 있습니다. “GPT-5.4 mini는 모델 선택기에서 선택 가능한 모델로 표시되지 않으며, GPT-5 Thinking mini는 30일 후 선택 가능한 옵션에서 제외됩니다.”
(출처: OpenAI 모델 출시 노트, 2026.03.18)
Plus 사용자가 아무리 모델 선택기를 뒤져도 GPT-5.4 mini는 보이지 않습니다.
Plus 플랜에서 만나는 방법은 딱 하나입니다
Plus와 Business 사용자는 GPT-5.4 Thinking의 주당 3,000개 메시지 한도에 도달했을 때, 자동으로 GPT-5.4 mini로 전환(폴백)됩니다. 즉, 이 모델을 쓰려면 먼저 Thinking 한도를 다 써야 합니다. 선택해서 쓰는 모델이 아니라, 한도 초과 시 대타로 등장하는 구조입니다.
Enterprise 고객은 선택 가능합니다
Enterprise 고객은 Auto 라우팅의 기본값을 GPT-5.4 mini로 직접 설정할 수 있습니다. 개인 사용자와 기업 사용자 간 접근 권한이 명확히 갈리는 지점입니다. 이 부분은 OpenAI 릴리스 노트에 한 줄로 적혀 있지만, 개인 사용자에게는 거의 알려지지 않은 내용입니다.
Free·Go 사용자가 오히려 더 많이 쓸 수 있는 이유
💡 요금제를 올릴수록 이 모델을 더 적게 쓰게 된다는 점이, 공식 구조를 교차해서 보면 나옵니다.
Free 사용자는 + 메뉴에서 직접 켤 수 있습니다
공식 문서에는 이렇게 나와 있습니다. “ChatGPT에서 GPT-5.4 mini는 + 메뉴의 Thinking 기능을 통해 Free 및 Go 사용자가 이용할 수 있습니다.”
(출처: OpenAI 모델 출시 노트, 2026.03.18)
Free 사용자는 앱 하단의 + 아이콘 → Thinking을 누르면 GPT-5.4 mini가 실행됩니다. Plus 사용자처럼 ‘한도가 차야만 쓰는’ 구조가 아닙니다.
Go 사용자의 한도 구조를 보면 더 명확합니다
Go 플랜 사용자는 Thinking을 활성화한 뒤 5시간마다 최대 10개의 메시지를 보낼 수 있습니다. 이 10개 한도를 쓰면 mini로 전환됩니다. 즉, Go 사용자는 추론 기능을 주도적으로 쓰다가 mini로 이어가는 흐름이 자연스럽게 설계돼 있습니다.
이 구조가 만들어진 맥락이 있습니다
OpenAI가 이 모델을 Free/Go에 먼저 노출한 건 단순한 혜택이 아닙니다. Thinking 기능을 처음 맛보는 사용자층에 mini를 경유지로 쓰게 하면서, 향후 유료 업그레이드로 유도하는 구조에 가깝습니다. 좋게 보면 접근성 확대이고, 다르게 보면 잘 계산된 유입 경로입니다.
장문 작업에서 성능이 절반 이하로 떨어지는 조건
벤치마크 수치가 말하는 것
OpenAI 공식 발표자료에 나온 롱 컨텍스트 정확도 벤치마크(OpenAI MRCR v2, 8-needle 기준)를 직접 확인했습니다.
(출처: OpenAI “Introducing GPT-5.4 mini and nano”, 2026.03.18)
| 컨텍스트 구간 | GPT-5.4 | GPT-5.4 mini |
|---|---|---|
| 64K~128K | 86.0% | 47.7% |
| 128K~256K | 79.3% | 33.6% |
| SWE-Bench Pro (코딩) | 57.7% | 54.4% |
숫자를 실생활로 해석하면 이렇습니다
128K~256K 구간은 대략 책 한 권 분량의 텍스트입니다. GPT-5.4 mini는 이 구간에서 3개 질문 중 1개만 제대로 찾아냅니다. 반면 코딩처럼 짧고 명확한 작업에서는 본 모델과 차이가 3%대에 불과합니다. 짧게 치고 빠지는 작업에는 강하지만, 긴 문서 분석에는 분명히 한계가 있습니다.
보고서·논문 전체 분석에는 쓰지 않는 게 낫습니다
Free 또는 Go 사용자가 Thinking 모드에서 mini를 쓸 때, 긴 PDF 업로드나 대형 코드베이스 분석 작업은 결과가 크게 떨어질 수 있습니다. 짧은 질문·코드 디버깅·요약처럼 컨텍스트 범위가 좁은 작업에서 활용도가 훨씬 높습니다. 이 차이를 모르고 쓰면 같은 질문인데 폴백 여부에 따라 답변 품질이 달라지는 경험을 하게 됩니다.
Codex에서 쿼타를 아끼는 방법이 생겼습니다
💡 공식 발표문과 Codex 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
Codex에서는 GPT-5.4 쿼타의 30%만 씁니다
공식 문서에 딱 이렇게 나옵니다. “Codex에서 GPT-5.4 mini는 GPT-5.4 할당량의 30%만 사용해서, 개발자들이 Codex에서 더 간단한 코딩 작업을 약 3분의 1 비용으로 처리할 수 있습니다.”
(출처: OpenAI “Introducing GPT-5.4 mini and nano”, 2026.03.18)
서브에이전트로 병렬 처리하는 전략이 실용적입니다
OpenAI가 권장하는 사용 패턴이 있습니다. GPT-5.4가 전체 계획과 최종 판단을 맡고, 코드베이스 탐색·대형 파일 검토·문서 처리 같은 단순 반복 작업은 GPT-5.4 mini 서브에이전트에게 위임하는 방식입니다. 복잡한 추론은 본 모델에, 속도가 필요한 반복 작업은 mini에 분배하면 쿼타를 훨씬 효율적으로 쓸 수 있습니다.
한도를 90% 쓰면 자동 전환 안내가 뜹니다
Codex는 5시간 사용 한도의 90%에 도달하면 자동으로 GPT-5-Codex-Mini로 전환하도록 안내합니다. 이 기능은 별도로 설정하지 않아도 기본으로 작동하기 때문에, 한도 끝에서 갑자기 작업이 중단되는 상황을 줄여줍니다. 모르고 쓰다가 갑자기 모델이 바뀐다는 느낌을 받을 수 있으니 미리 알아두는 게 좋습니다.
GPT-5.4 mini를 API로 쓸 때 알아야 할 수치
API 가격과 컨텍스트 윈도우
API에서 GPT-5.4 mini는 입력 토큰 1M당 $0.75, 출력 토큰 1M당 $4.50입니다. 컨텍스트 윈도우는 400K 토큰입니다.
(출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.18)
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) |
|---|---|---|
| gpt-5.4 | $2.50 | $15.00 |
| gpt-5.4 mini | $0.75 | $4.50 |
| gpt-5.2 | $1.75 | $14.00 |
gpt-5.2보다 입력이 57% 저렴합니다
$$\text{가격 비율} = \frac{\$0.75}{\$1.75} \approx 0.43$$
nano와의 차이는 컨텍스트가 아닙니다
nano($0.20/$1.25)가 더 저렴하지만, Terminal-Bench 2.0 기준 nano는 46.3%이고 mini는 60.0%입니다. 코딩 작업에서 두 모델 차이가 생각보다 큽니다. 분류·태깅·단순 추출이라면 nano로 충분하지만, 코드 디버깅이나 복잡한 서브에이전트 작업이라면 mini가 낫습니다. 작업 성격에 따라 명확히 나뉩니다.
Q&A 5가지
Q1. Plus 요금제인데 GPT-5.4 mini를 어떻게 쓸 수 있나요?
Plus 사용자는 GPT-5.4 Thinking 주당 3,000개 메시지 한도를 모두 소진하면 자동으로 mini로 전환됩니다. 직접 선택하는 방법은 현재 없습니다. 한도를 아끼고 싶다면 간단한 작업은 GPT-5.3 Instant로, 추론이 필요한 작업에만 Thinking을 쓰는 방식이 현실적입니다.
Q2. Free 사용자는 GPT-5.4 mini를 어디서 켜나요?
ChatGPT 앱 채팅 입력창 하단의 + 아이콘을 탭하면 도구 메뉴가 열립니다. 여기서 ‘Thinking’을 선택하면 GPT-5.4 mini가 실행됩니다. 5시간마다 최대 10개 메시지까지 사용할 수 있습니다. 한도 도달 후에는 다음 5시간 초기화를 기다려야 합니다.
Q3. GPT-5.4 mini와 GPT-5.4 Thinking의 성능 차이가 얼마나 납니까?
코딩(SWE-Bench Pro)에서는 57.7% vs 54.4%로 차이가 작습니다. 하지만 장문 문서(128K~256K)에서는 79.3% vs 33.6%로 큰 차이가 납니다. 수학·추론(GPQA Diamond)에서는 93.0% vs 88.0%입니다. 짧고 명확한 작업에서는 mini로도 충분하고, 긴 문서 분석은 본 모델이 필요합니다.
Q4. Codex에서 GPT-5.4 mini를 쓰면 쿼타가 얼마나 절약되나요?
Q5. GPT-5.4 nano는 ChatGPT에서 쓸 수 없나요?
맞습니다. GPT-5.4 nano는 API에서만 사용 가능합니다. ChatGPT 앱이나 Codex에서는 제공되지 않습니다. API 가격은 입력 1M 토큰당 $0.20, 출력 $1.25입니다. 분류·데이터 추출·단순 랭킹 같은 빠른 대량 처리 작업에 맞게 설계됐습니다.
마치며
막상 공식 문서를 보면 Plus 사용자는 이 모델을 직접 선택할 수 없고, Free/Go 사용자가 오히려 더 먼저, 더 능동적으로 접근할 수 있는 구조가 나옵니다. 또 긴 문서 처리에서 성능이 절반 이하로 떨어진다는 수치도 발표자료 안에 있지만 따로 알려진 적이 없습니다.
Codex 사용자라면 30% 쿼타 소모 특성을 활용해서 서브에이전트 전략을 짜면 실질적인 비용 절감이 가능합니다. API 사용자라면 gpt-5.2보다 입력 토큰이 57% 저렴하다는 점을 활용할 수 있고, 단 긴 컨텍스트 작업에서는 주의가 필요합니다. 어떤 요금제를 쓰고, 어떤 작업에 쓰는지에 따라 GPT-5.4 mini의 의미가 완전히 달라집니다.
본 포스팅 참고 자료
- OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano” (2026.03.18) — https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
- OpenAI 모델 출시 노트 (ChatGPT Release Notes) — https://help.openai.com/ko-kr/articles/9624314-model-release-notes
- OpenAI 도움말 “GPT-5.3 and 5.4 in ChatGPT” — https://help.openai.com/ko-kr/articles/11909943
- OpenAI 공식 블로그 “Introducing GPT-5.4” (2026.03.05) — https://openai.com/ko-KR/index/introducing-gpt-5-4/
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 OpenAI 공식 발표 기준(2026.03.18)이며, 이후 업데이트로 달라질 수 있습니다.

댓글 남기기