GPT-5.4 Thinking 기준
GPT-5.4 Thinking, 한도 다 쓰면 끝날까요?
주간 3,000회가 찼을 때 실제로 일어나는 일을 공식 문서로 확인했습니다.
GPT-5.4 Thinking의 주간 한도 3,000회가 다 차면 더 이상 못 쓴다고 생각하는 경우가 많습니다. 직접 OpenAI 공식 Help Center를 열어보니 달랐습니다. 한도 초과 후에도 GPT-5.4 Thinking이 완전히 차단되는 건 아닙니다. 더 정확히 말하면, 수동으로 선택할 수 없을 뿐이고, 자동 전환 경로는 여전히 열려 있습니다. (출처: OpenAI Help Center, 2026.03.26 업데이트)
2026년 3월 5일 출시된 GPT-5.4 Thinking의 플랜별 한도, 폴백 구조, 그리고 기존 블로그가 다루지 않은 Terminal-Bench 수치의 함정까지 공식 문서 원문 기준으로 정리했습니다.
GPT-5.4 Thinking이 뭔지부터 짚고 갑니다
GPT-5.4는 2026년 3월 5일 OpenAI가 공개한 최신 프론티어 모델입니다. ChatGPT 안에서는 “GPT-5.4 Thinking”이라는 이름으로 제공됩니다. (출처: OpenAI 공식 발표, 2026.03.05)
이전 모델들은 추론(Reasoning), 코딩(Codex), 에이전트(Agent) 기능이 따로 나뉘어 있었습니다. GPT-5.4는 GPT-5.3-Codex의 코딩 능력과 GPT-5.2의 추론 능력, 그리고 컴퓨터 직접 조작 기능을 하나의 모델로 통합한 게 핵심입니다.
ChatGPT 안에서 Thinking을 선택하면 긴 사고 과정 전에 짧은 “서문(preamble)”이 먼저 나옵니다. 답이 다 나오기 전에 방향을 수정할 수 있는 구조로 바뀐 겁니다. 생각의 방향을 중간에 꺾을 수 있다는 점이 이전 Thinking 모델과 가장 다른 부분입니다.
플랜별 한도, 표로 한 번에 정리
공식 Help Center(2026.03.26 기준)에 나온 수치를 그대로 정리했습니다. 플랜에 따라 GPT-5.3 Instant와 GPT-5.4 Thinking의 한도가 완전히 다르게 적용됩니다.
| 플랜 | GPT-5.3 Instant 한도 | GPT-5.4 Thinking 한도 | 컨텍스트 창 |
|---|---|---|---|
| Free | 10회/5시간 | + 버튼 메뉴로만 접근 (GPT-5.4 mini) |
16K (Instant) |
| Go | 160회/3시간 | 10회/5시간 (+ 버튼으로 활성화) |
32K (Instant) |
| Plus | 160회/3시간 | 3,000회/주 | 256K (Thinking) |
| Business | 160회/3시간 | 3,000회/주 | 256K (Thinking) |
| Pro | 무제한* | 무제한* | 400K (Thinking Pro) |
*무제한은 남용 방지 가이드라인 내 사용 기준. (출처: OpenAI Help Center, 2026.03.26)
수치를 보면 눈에 띄는 게 있습니다. Thinking에 접근하는 방식이 플랜마다 다릅니다. Free는 아예 수동 선택이 불가능하고, Go는 + 버튼으로만 켜지며 5시간에 10회 제한입니다. Plus부터 주간 3,000회 수동 선택이 가능해집니다.
컨텍스트 창도 다릅니다. Pro 티어의 Thinking 컨텍스트는 400K(입력 272K + 최대 출력 128K)인데, 나머지 유료 플랜은 256K(입력 128K + 최대 출력 128K)입니다. 긴 문서 분석이나 복잡한 에이전트 작업에서 Pro가 실질적으로 유리한 이유가 여기 있습니다.
주간 3,000회 다 써도 Thinking이 끊기지 않는 이유
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. “수동 선택 한도”와 “자동 전환 횟수”는 별도로 집계됩니다.
OpenAI 공식 Help Center에는 이렇게 적혀 있습니다. “Automatic switching from GPT-5.3 Instant to GPT-5.4 Thinking does not count toward this weekly limit.” (출처: OpenAI Help Center, 2026.03.26) 자동 전환은 주간 한도에 카운트되지 않습니다.
즉, GPT-5.3 Instant를 사용하는 중에 ChatGPT가 스스로 판단해서 Thinking으로 넘어가는 경우, 그 횟수는 3,000회 카운터에 포함되지 않습니다. 주간 한도를 전부 소진해도 자동 전환 경로는 여전히 작동합니다.
2026.03.18 이후 추가된 mini 폴백 구조
2026년 3월 18일 릴리스 노트에는 또 다른 변화가 추가됐습니다. GPT-5.4 mini가 ChatGPT에 도입되면서, Plus·Business 사용자가 Thinking 한도를 다 쓰면 이제 GPT-5.4 mini가 폴백(fallback)으로 자동 투입됩니다. (출처: OpenAI Model Release Notes, 2026.03.18)
한도를 다 쓴 뒤에도 추론 기능이 완전히 꺼지지 않는 구조입니다. 성능은 낮아지지만 GPT-5.4 mini 역시 Thinking 기반 모델이라는 점에서, 기존 블로그들이 말하는 “한도 초과 = Thinking 불가”는 정확하지 않습니다.
코딩에서 5.4가 5.3-Codex보다 느린 구간이 있습니다
💡 GPT-5.4가 “모든 면에서 5.3-Codex를 앞선다”는 인상이 있지만, Terminal-Bench 2.0 수치는 반대 방향을 가리킵니다.
OpenAI 공식 발표 벤치마크 표를 보면 흥미로운 수치가 있습니다. Terminal-Bench 2.0에서 GPT-5.4는 75.1%를 기록했고, GPT-5.3-Codex는 77.3%를 기록했습니다. (출처: OpenAI 공식 발표 GPT-5.4 벤치마크, 2026.03.05)
터미널 환경에서 장시간 독립 실행하는 코딩 작업에서는 5.3-Codex가 아직 앞섭니다. 2.2%p 차이지만, 이건 OpenAI 스스로 발표한 수치입니다. “코딩은 GPT-5.3-Codex, 복합 작업은 GPT-5.4″라는 구분이 여전히 유효하다는 의미입니다.
| 벤치마크 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| SWE-Bench Pro | 57.7% | 56.8% | 55.6% |
| Terminal-Bench 2.0 | 75.1% | 77.3% | 62.2% |
| OSWorld (컴퓨터 조작) | 75.0% | 74.0% | 47.3% |
| BrowseComp (웹 리서치) | 82.7% | 77.3% | 65.8% |
(출처: OpenAI 공식 발표 벤치마크, 2026.03.05)
터미널 독립 실행 작업이 많은 개발자라면, GPT-5.4로 무조건 넘어가기보다 작업 유형별로 모델을 선택하는 편이 실제로 더 효율적입니다.
컴퓨터를 인간보다 잘 다루지만, 모든 플랜에서 되는 건 아닙니다
GPT-5.4가 OSWorld-Verified에서 75.0%를 기록하며 인간 기준점인 72.4%를 넘어섰습니다. (출처: OpenAI 공식 발표, 2026.03.05) 마우스와 키보드로 컴퓨터를 조작하는 능력에서 AI가 사람을 앞선 수치입니다.
막상 써보려 하면 막히는 지점이 있습니다. 공식 발표문을 보면 네이티브 computer-use 기능은 “In Codex and the API”에서만 적용된다고 명시돼 있습니다. (출처: OpenAI 공식 발표, 2026.03.05) ChatGPT Plus에서 Thinking 모드를 켜도 별도 “컴퓨터 사용” 인터페이스는 나타나지 않습니다.
즉, ChatGPT Plus 사용자는 Thinking 모드로 GPT-5.4의 추론 능력을 쓸 수 있지만, 마우스·키보드 조작 같은 네이티브 컴퓨터 사용 기능은 API나 Codex 환경에서만 활성화됩니다. 벤치마크 수치 75.0%가 ChatGPT UI에서 그대로 구현된다고 보기는 어렵습니다.
실사용에서 실망하는 경우가 나오는 진짜 이유
ZDNET의 실사용 리뷰(2026.03.17)에는 이런 평가가 나옵니다. “Sometimes it answered questions you didn’t ask.” 실제로 복잡한 질문을 던졌을 때 물어보지 않은 방향으로 답을 전개하는 경향이 있다는 지적입니다. (출처: ZDNET GPT-5.4 Thinking 실사용 리뷰, 2026.03.17)
GPT-5.4 Thinking은 답을 내리기 전에 먼저 계획을 세웁니다. 이 과정에서 AI가 스스로 “더 좋은 질문”을 해석해버리는 경우가 생깁니다. 공식 발표에서도 “adjust course mid-response”가 가능하다고 강조하는 이유가 여기 있습니다. 서문이 나온 시점에서 방향을 잡아줘야 원하는 답을 받을 수 있습니다.
또 하나 실망 포인트는 이미지 생성입니다. GPT-5.4 Thinking의 텍스트 분석 능력은 높지만, 이미지 생성은 하위 모델을 호출하는 구조라 프롬프트를 정밀하게 넣어도 원하는 결과가 나오지 않을 수 있습니다. 텍스트와 이미지 품질이 같이 올라갔다고 기대하면 실망할 수 있습니다.
Thinking 시간 설정도 확인할 필요가 있습니다. Plus·Business 사용자는 Standard와 Extended 두 가지를 선택할 수 있고, Pro 사용자는 Light와 Heavy가 추가됩니다. Standard가 기본값이며, 어려운 작업이라면 Extended를 수동으로 선택해야 더 깊은 추론을 받을 수 있습니다. 기본값 그대로 쓰면 Thinking 모델의 잠재력을 절반도 못 끌어내는 경우가 많습니다.
Q&A 5가지
마치며 — 써보면서 느낀 것들
GPT-5.4 Thinking은 분명히 이전 모델보다 한 단계 올라섰습니다. 전문직 작업 벤치마크 83.0%는 공식 수치이고, BrowseComp에서의 17%p 향상도 실제로 체감됩니다. 복잡한 질문에 대한 답의 밀도가 달라졌습니다.
다만 “Thinking 한도가 차면 끝”이라는 인식은 정확하지 않습니다. 자동 전환은 한도와 별개로 작동하고, 3월 18일 이후에는 mini 폴백까지 추가됐습니다. 코딩 작업에서도 용도에 따라 5.3-Codex가 더 나은 경우가 있고, 컴퓨터 조작 기능은 API/Codex 환경에서만 실질적으로 작동합니다.
Thinking 시간 설정을 Standard에서 Extended로 바꾸는 것, 서문이 나오는 시점에 방향을 조정하는 것 — 이 두 가지만 챙겨도 GPT-5.4 Thinking에서 실망하는 빈도가 확 줄어듭니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 모든 수치는 OpenAI 공식 문서 및 공식 발표 기준이며, 실제 서비스 환경에 따라 다를 수 있습니다.

댓글 남기기