GPT-5.4 mini 기준
OpenAI 공식 문서 기반
GPT-5.4 mini Thinking,
Free도 된다고요? 이게 다릅니다
2026년 3월 18일, OpenAI가 ChatGPT Free·Go 플랜에 GPT-5.4 mini Thinking을 조용히 열었습니다. “무료로 추론 모델이 된다”는 말에 솔깃할 수 있는데, 막상 공식 문서를 뜯어보면 한도·컨텍스트·라우팅 방식이 Plus와 구조적으로 다릅니다. 지금부터 수치로 직접 짚어봅니다.
GPT-5.4 mini Thinking이 뭔지, 딱 세 줄로 정리
GPT-5.4 mini는 2026년 3월 17일 OpenAI가 출시한 GPT-5.4 패밀리의 경량 모델입니다. “mini”라는 이름에서 단순히 성능을 낮춘 버전으로 생각할 수 있는데, 공식 벤치마크를 보면 이전 세대인 GPT-5 mini와는 성격 자체가 다릅니다. SWE-Bench Pro 기준 GPT-5 mini가 45.7%인 반면 GPT-5.4 mini는 54.4%로 올라섰고, 컴퓨터 사용 능력을 측정하는 OSWorld-Verified에서는 42.0%에서 72.1%로 폭이 커졌습니다. (출처: OpenAI 공식 블로그, 2026.03.17)
“Thinking” 기능은 이 모델에 추론 과정을 명시적으로 거치게 하는 모드입니다. GPT-5.4 mini Thinking은 2026년 3월 18일 공식 릴리스 노트를 통해 Free 및 Go 플랜에서도 이용 가능하다고 발표됐습니다. ChatGPT 메시지 입력창의 + 메뉴에서 ‘잘 생각하기’ 옵션을 누르면 활성화됩니다. (출처: OpenAI 모델 릴리스 노트, 2026.03.18)
결론부터 말씀드리면, Free·Go 플랜에서 열린 것은 GPT-5.4 Thinking(풀 모델의 추론 기능)이 아니라 GPT-5.4 mini Thinking입니다. 이 차이가 단순한 브랜드 표기 문제가 아니라 한도·성능·동작 구조 전반에 걸쳐 영향을 줍니다.
Free·Go 플랜에서 Thinking이 열리는 방식
GPT-5.4 mini Thinking이 Free와 Go 플랜에 어떻게 들어오는지는 공식 도움말 문서에 명확히 나와 있습니다. Go 플랜 사용자는 입력창 + 아이콘 → 도구 메뉴 → Thinking을 선택하는 방식으로 활성화합니다. 반면 Plus 이상은 모델 선택기에서 ‘Thinking’을 직접 수동 선택할 수 있어, 접근 경로가 다릅니다. (출처: OpenAI 도움말 센터, ChatGPT의 GPT-5.3 및 GPT-5.4)
여기서 체감 차이가 생기는 지점이 있습니다. Plus 이상에서는 GPT-5.4 Thinking 주간 한도(3,000회)를 소진한 뒤 자동으로 GPT-5.4 mini Thinking으로 폴백됩니다. 즉 Plus 사용자에게 mini는 “한도를 다 쓴 뒤 받는 대체재”인데, Go 사용자에게는 “처음부터 이게 Thinking의 전부”입니다. 두 플랜 모두 Thinking을 누르지만, 받는 모델이 처음부터 다릅니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
OpenAI 공식 릴리스 노트(2026.03.18)에는 “Free 및 Go 사용자가 + 메뉴의 ‘잘 생각하기’ 옵션을 통해 GPT-5.4 mini를 이용할 수 있다”고 적혀 있습니다. 그런데 Reddit의 Go 플랜 사용자들이 올린 글을 보면, Thinking을 활성화했을 때 실제로 GPT-5 Thinking mini(구세대)로 라우팅된다고 보고하는 케이스가 있었습니다. OpenAI가 점진 배포 중인 것으로 보이며, 모델 이름이 화면에 표시되는지 직접 확인하는 것이 확실합니다.
한도가 생각보다 빨리 닳는 구조적 이유
OpenAI 공식 도움말 센터에 Go 플랜의 Thinking 한도가 딱 이렇게 나옵니다. Thinking을 활성화한 뒤 5시간마다 최대 10개의 메시지. 반면 Plus/Business는 주당 최대 3,000개. 단순 숫자만 봐도 차이가 크지만, 실제 사용 흐름에서 더 체감이 큽니다.
| 요금제 | Thinking 모델 | Thinking 한도 | 컨텍스트 창 |
|---|---|---|---|
| Free | GPT-5.4 mini Thinking | 5시간/10회 | 16K |
| Go (월 약 13,000원) | GPT-5.4 mini Thinking | 5시간/10회 | 32K |
| Plus (월 $20) | GPT-5.4 Thinking | 주 3,000회 | 256K |
| Pro (월 $200) | GPT-5.4 Thinking + Pro | 무제한* | 400K |
*오남용 방지 정책 적용. 출처: ChatGPT 공식 요금제 페이지, OpenAI 도움말 센터
5시간에 10회라는 한도를 실제로 놓고 보면 이렇습니다. 복잡한 코딩 문제 하나에 Thinking이 2~3회 들어가면 한 세션에 3~4번 질문으로 한도가 찹니다. 그 이후에는 Thinking 없이 일반 GPT-5.3 Instant로 돌아갑니다. “추론 모델을 무료로 쓸 수 있다”는 표현은 정확하지만, 하루 업무 흐름에서 체감할 수 있는 분량이 아닙니다.
💡 Go 플랜 Thinking 자동 전환 조건이 Plus와 다릅니다
Plus에서는 GPT-5.3 Instant를 쓰다가 ChatGPT가 복잡한 요청이라 판단하면 자동으로 GPT-5.4 Thinking으로 전환합니다. 이 자동 전환은 주간 3,000회 한도에 포함되지 않습니다. Go 플랜에는 이 자동 전환 구조 자체가 없습니다. Thinking을 쓰려면 직접 켜야 하고, 켜는 순간 5시간 10회 한도가 소진되기 시작합니다. (출처: OpenAI 도움말 센터, 2026.03.18)
긴 문서를 다룰 때 mini가 full 모델과 달라지는 지점
GPT-5.4 mini는 400K 컨텍스트 창을 지원합니다. 숫자만 보면 full GPT-5.4와 동일합니다. 그런데 실제 롱컨텍스트 처리 성능을 보면 이야기가 달라집니다. OpenAI 공식 벤치마크(OpenAI MRCR v2, 8개의 정보를 긴 문서에서 찾아내는 테스트)에서 64K~128K 구간 기준으로 full GPT-5.4는 86.0%를 기록한 반면, GPT-5.4 mini는 47.7%에 그쳤습니다. (출처: OpenAI 공식 GPT-5.4 mini/nano 발표, 2026.03.17)
86%와 47%라면 거의 절반입니다. 400K를 지원한다고 해서 400K 전체를 full 모델과 같은 정확도로 처리하지는 않는다는 뜻입니다. 계약서 50페이지, 코드베이스 전체를 넣고 “여기서 OO 조건 다 찾아줘” 식의 작업이라면 mini와 full 모델의 결과 품질이 체감 수준으로 달라질 수 있습니다.
📊 컨텍스트 길이별 정확도 낙폭 — 직접 따져볼 수 있습니다
| 컨텍스트 구간 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| 0 ~ 128K | 93.1% | 76.3% | 73.4% |
| 64K ~ 128K | 86.0% | 47.7% | 35.1% |
| 128K ~ 256K | 79.3% | 33.6% | 19.4% |
OpenAI MRCR v2 (8-needle) 기준. 출처: OpenAI 공식 발표, 2026.03.17
64K~128K 구간에서 mini는 full 모델의 약 55% 수준입니다. 짧은 문서라면 차이가 크지 않지만, A4 100페이지 이상 분량을 통째로 처리하는 작업에서는 체감합니다.
반면 도구 호출 성능은 다릅니다. 실시간 툴 콜 테스트인 Toolathlon에서 GPT-5.4 mini는 42.9%로, GPT-5 mini(26.9%)보다 60% 이상 높습니다. MCP Atlas(250개 MCP 서버 테스트)에서도 57.7% vs 47.6%로 mini가 이전 세대를 앞섭니다. 짧은 컨텍스트에서 툴을 반복 호출하는 에이전트형 작업이라면 mini로도 충분한 이유입니다.
Codex에서는 mini가 오히려 경제적인 이유
GPT-5.4 mini가 가장 실용적인 영역은 Codex 코딩 에이전트입니다. OpenAI 공식 발표에 따르면, Codex에서 GPT-5.4 mini는 GPT-5.4 소비 쿼터의 30%만 사용합니다. 같은 한도로 3배 더 오래 작업할 수 있다는 뜻입니다. (출처: OpenAI 공식 발표, 2026.03.17)
Codex의 전형적인 작업 패턴은 큰 모델이 계획을 짜고, mini가 반복적인 하위 작업(파일 검색, 코드 리뷰, 서브에이전트)을 처리하는 구조입니다. 이 경우 OSWorld-Verified 기준 GPT-5.4 mini(72.1%)와 full GPT-5.4(75.0%)의 차이가 2.9%포인트에 불과한 반면, 비용은 3분의 1입니다. 단순 반복 작업에서는 mini가 “더 저렴한 선택”이 아니라 “더 합리적인 선택”입니다.
💡 Hebbia CTO 사례가 보여주는 것
Hebbia의 CTO Aabhas Sharma는 자사 워크플로에서 GPT-5.4 mini가 풀 GPT-5.4보다 특정 출력 작업에서 높은 엔드-투-엔드 통과율을 기록했다고 밝혔습니다. (출처: adam.holter.com, 2026.03.17) 모델이 클수록 무조건 낫다는 공식은, 작업 성격에 따라 실제로 성립하지 않을 수 있습니다.
요금제별로 실제로 다른 것과 같은 것
정리해보면, Free와 Go 플랜에서 Thinking이 열렸다는 사실은 맞습니다. 다만 그 Thinking이 Plus 이상에서 접근하는 GPT-5.4 Thinking과 세 가지 면에서 구체적으로 다릅니다.
첫째, 모델 자체가 다릅니다. Free·Go는 GPT-5.4 mini Thinking, Plus 이상은 GPT-5.4 Thinking입니다. 둘째, 한도 구조가 다릅니다. Go는 5시간에 10회인 반면 Plus는 주 3,000회입니다. 셋째, 자동 전환 여부가 다릅니다. Plus는 Instant 대화 중 자동으로 Thinking으로 전환되는데, 이 자동 전환은 주간 한도에 포함되지 않습니다. Go에는 이 구조 자체가 없습니다.
그렇다고 Go 플랜의 Thinking이 쓸모없는 건 아닙니다. 일주일에 Thinking을 집중적으로 쓰는 날이 3~4일이고, 하루에 2~3번 정도라면 Go 플랜의 한도가 버텨줍니다. 매일 Thinking을 30번 이상 써야 하는 작업이라면 Plus가 맞습니다. 어느 플랜을 선택해야 할지는 사용 패턴을 먼저 파악하는 게 순서입니다.
자주 묻는 것들
마치며 — 열린 것과 아직 닫힌 것
GPT-5.4 mini Thinking이 Free·Go에 열린 건 작은 진전이 맞습니다. 직접 Thinking 모드를 켜보면 이전 기본 모드와 응답 방식이 다르다는 게 체감됩니다. 다만 “무료로 GPT-5.4 수준의 추론을 쓸 수 있다”는 표현은 정확하지 않습니다. 한도 10회, 컨텍스트 16K~32K, 롱컨텍스트 성능 낙폭 — 이 세 가지를 모르고 시작하면 기대와 다른 경험을 하게 됩니다.
솔직히 말하면, Thinking을 일상적으로 쓰는 사람이라면 Go보다 Plus가 맞습니다. Go의 Thinking은 “가끔 어려운 질문 한두 개 해결할 때” 정도의 분량입니다. 반면 Codex 에이전트를 팀 단위로 쓰는 개발자라면 mini의 30% 쿼터 효율이 실제로 의미 있는 절감입니다. 어느 방향으로 쓸지를 먼저 정하면, 모델 선택이 자연스럽게 따라옵니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 18일 기준 OpenAI 공식 자료를 근거로 작성되었으며, 이후 업데이트로 내용이 달라질 수 있습니다.

댓글 남기기