GPT-5.4 (2026.03.05 출시)
API + ChatGPT 기준
GPT-5.4 토큰 한도, 공식 문서에서 직접 확인한 3가지
GPT-5.4가 출시된 지 3주가 넘었는데, 대부분의 글은 성능 벤치마크에 집중합니다. 정작 실사용에서 더 중요한 건 따로 있습니다. 272K 토큰을 넘으면 전체 세션에 2배 과금이 붙는 조건, 주간 한도 3,000회의 예외 케이스, 요금제마다 다른 컨텍스트 창 크기까지 — OpenAI 공식 문서를 직접 확인한 내용을 정리했습니다.
GPT-5.4 토큰 한도, 왜 지금 확인해야 할까
GPT-5.4는 2026년 3월 5일에 공식 출시됐습니다. 출시 직후 나온 글들은 대부분 GDPval 83.0%, OSWorld-Verified 75.0% 같은 벤치마크 수치에 집중했습니다. 성능이 좋다는 건 맞습니다. 그런데 실제로 API를 연동하거나, ChatGPT Plus에서 매일 쓰는 사람이라면 성능보다 먼저 봐야 할 게 있습니다.
바로 토큰 한도 구조입니다. GPT-5.4에는 기존 모델에 없던 요금 계산 방식이 들어있고, ChatGPT 앱에서 사용할 때도 요금제에 따라 작동 방식이 달라집니다. 공식 문서를 읽기 전까지는 눈치채기 어려운 조건들입니다.
GPT-5.4의 특징을 간단히 정리하면 이렇습니다.
💡 공식 발표문과 실제 요금 페이지를 같이 놓고 보니 “토큰 효율이 좋다”는 표현이 어느 범위에서 유효한지 뚜렷하게 갈렸습니다.
| 항목 | GPT-5.2 | GPT-5.4 |
|---|---|---|
| 입력 토큰 단가 | $1.75 / 1M | $2.50 / 1M |
| 출력 토큰 단가 | $14.00 / 1M | $15.00 / 1M |
| 컨텍스트 창 | 272K | 1.05M (API/Codex) |
| 272K 초과 과금 | 없음 | 2배 입력 / 1.5배 출력 |
| 토큰 효율 | 기준 | 약 47% 향상 |
(출처: OpenAI 공식 블로그 「Introducing GPT-5.4」, 2026.03.05 / OpenAI API 가격 페이지, 2026.03.05)
272K 토큰 기준: 넘는 순간 무슨 일이 생기나
GPT-5.4는 API와 Codex에서 최대 1,050,000토큰(약 1.05M)의 컨텍스트를 지원합니다. 여기까지는 많이 알려진 내용입니다. 그런데 공식 API 문서에는 이런 조항이 있습니다.
⚠️ “입력 토큰이 272,000개를 초과하는 요청은 standard, batch, flex 모두 입력 2배, 출력 1.5배로 과금됩니다. 초과분에만 적용되는 게 아니라 전체 세션에 적용됩니다.”
(출처: OpenAI API 모델 문서 gpt-5.4, developers.openai.com)
“초과분만 비싸겠지”라고 생각했다면, 이게 핵심입니다. 272K를 1토큰이라도 넘는 순간, 그 세션의 토큰 전부가 2배 단가로 계산됩니다. 넘지 않은 경우와 비교하면 비용 차이가 급격히 벌어집니다.
실제로 계산해보면 이렇습니다. 입력 272,000토큰 요청 비용은 이렇습니다.
$$\text{입력 비용} = 272{,}000 \div 1{,}000{,}000 \times \$2.50 = \$0.68$$
$$\text{입력 비용} = 273{,}000 \div 1{,}000{,}000 \times \$5.00 = \$1.365$$
1,000토큰 더 썼을 뿐인데 비용이 약 2배로 뜁니다. 한 번의 요청으로 대용량 코드베이스나 긴 문서를 처리할 때 이 기준선을 무의식적으로 넘기 쉽습니다.
💡 272K 토큰은 한국어 기준으로 약 200,000자 분량입니다. 한글은 영문보다 토큰 수가 더 많이 소모되므로, 실제로는 약 150~160쪽 분량의 문서에서 이 기준이 걸릴 수 있습니다.
(출처: OpenAI API 모델 문서 gpt-5.4, developers.openai.com, 2026.03.05)
주간 3,000회 한도가 생각보다 여유로운 이유
ChatGPT Plus 기준으로 GPT-5.4 Thinking을 직접 선택하면 주당 최대 3,000회를 쓸 수 있습니다. OpenAI 공식 도움말에 그대로 나와 있습니다.
여기서 많이 오해하는 부분이 있습니다. 한도를 꽉 채웠어도 ChatGPT가 자동으로 GPT-5.4 Thinking으로 전환하는 경우, 그건 한도에 카운트되지 않습니다.
공식 문서에 이렇게 나옵니다: “Automatic switching from GPT-5.3 Instant to GPT-5.4 Thinking does not count toward this weekly limit, and ChatGPT may still switch to GPT-5.4 Thinking after you’ve reached it.”
(출처: OpenAI 도움말 「GPT-5.3 and GPT-5.4 in ChatGPT」, 2026.03.18)
Thinking을 손으로 선택한 건 한도가 줄어들지만, Instant가 자동으로 Thinking으로 넘어가는 건 한도 소진 여부와 무관합니다. 매주 3,000회를 다 써도 AI가 판단해서 Thinking을 쓰는 흐름은 유지됩니다.
단, 이 자동 전환은 ChatGPT가 “이 질문은 복잡하다”고 판단할 때만 발생합니다. 짧은 질문이나 간단한 번역 요청에서는 작동하지 않습니다.
| ChatGPT 플랜 | Thinking 주간 한도 | 자동 전환 시 카운트 |
|---|---|---|
| Free | 선택 불가 (자동 전환만) | 카운트 없음 |
| Plus / Business | 3,000회 / 주 | 카운트 없음 |
| Go | 10회 / 5시간 | 카운트 없음 |
| Pro / Enterprise | 무제한 (약관 내) | 카운트 없음 |
(출처: OpenAI 도움말 「GPT-5.3 and GPT-5.4 in ChatGPT」, 2026.03.18)
토큰 효율이 오르면 비용도 내려갈까 — 직접 계산해봤습니다
OpenAI 공식 블로그에는 이런 문장이 있습니다. “GPT-5.4는 지금까지 출시된 모델 중 가장 토큰 효율이 높습니다. GPT-5.2 대비 같은 문제를 훨씬 적은 토큰으로 해결합니다.” 그리고 독립 분석 기관 NxCode는 이를 약 47% 토큰 효율 향상으로 집계했습니다.
단가는 올랐는데 효율이 올라 실질 비용은 내려간다는 논리입니다. 실제로 이게 맞는지 272K 이하 작업에서 계산해봤습니다.
$$\text{비용} = 10{,}000 \div 1{,}000{,}000 \times \$14 = \$0.14$$
$$\text{비용} = 5{,}300 \div 1{,}000{,}000 \times \$15 = \$0.0795$$
272K 이하 작업에서는 실제로 비용이 내려갑니다. 단가는 올랐지만 토큰 수가 줄었으니 계산이 맞습니다.
그런데 이 논리가 무너지는 구간이 있습니다. 바로 272K 초과 세션입니다. 전체 세션에 2배 단가가 붙는 순간, 토큰 효율 이득이 사라집니다. 272K 이하 구간에서만 “비용 절감” 효과가 성립합니다.
💡 공식 발표와 실제 요금 구조를 같이 보면: GPT-5.4가 “토큰 효율 모델”이라는 표현은 272K 이하 작업에서만 유효합니다. 긴 컨텍스트 작업이 주업무라면 GPT-4.1(플랫 단가, 1M 토큰 지원)이 총비용 면에서 더 유리할 수 있습니다.
(출처: OpenAI 공식 블로그 「Introducing GPT-5.4」 2026.03.05, NxCode 분석 2026.03.18 / 계산 추정치 포함)
요금제별 컨텍스트 창이 다르다는 게 실제로 어떤 의미인가
API에서는 GPT-5.4가 1.05M 컨텍스트를 지원하지만, ChatGPT 앱에서는 얘기가 다릅니다. 공식 도움말에 요금제별 컨텍스트 창이 명시되어 있습니다.
| 모델 | 플랜 | 컨텍스트 창 |
|---|---|---|
| GPT-5.3 Instant | Free | 16K |
| GPT-5.3 Instant | Plus / Business | 32K |
| GPT-5.3 Instant | Pro / Enterprise | 128K |
| GPT-5.4 Thinking | Plus / Business | 256K |
| GPT-5.4 Thinking | Pro | 400K (입력 272K + 출력 128K) |
Plus 플랜에서 GPT-5.4 Thinking을 써도 컨텍스트 창은 256K입니다. API와 Codex의 1.05M은 ChatGPT 앱 이용자에게는 해당되지 않습니다. “1M 컨텍스트 지원”이라는 표현은 API 개발자용 스펙입니다.
Pro 플랜은 400K이지만, 이것도 입력 272K + 출력 128K로 나뉩니다. 입력만 놓고 보면 Pro와 Plus 모두 272K 아래에서 같은 단가가 적용됩니다.
💡 ChatGPT 앱에서 “1M 토큰 컨텍스트”를 사용하려면 API나 Codex로 접근해야 합니다. 앱에서는 Plus 기준 256K가 상한입니다.
(출처: OpenAI 도움말 「GPT-5.3 and GPT-5.4 in ChatGPT」, help.openai.com, 2026.03.18)
GPT-5.4 vs 경쟁 모델 — 긴 컨텍스트 작업에서 유리한 쪽
긴 문서나 대용량 코드베이스를 다루는 작업이라면 GPT-5.4 외에도 선택지가 있습니다. API 기준으로 비교하면 흥미로운 지점이 보입니다.
💡 여러 모델의 장문 처리 요금 구조를 같이 놓고 보면, 어느 모델이 어떤 조건에서 유리한지가 보입니다.
| 모델 | 컨텍스트 | 입력 단가 | 장문 과금 구조 |
|---|---|---|---|
| GPT-5.4 | 1.05M | $2.50 / M | 272K 초과 시 전체 2배 |
| GPT-4.1 | 1M | $2.00 / M | 플랫 단가 (초과 없음) |
| Claude Opus 4.6 | 1M | $5.00 / M | 플랫 단가 (2026.03.13 이후) |
| Gemini 3.1 Pro | 1M | 별도 확인 필요 | 플랫 단가 |
솔직히 말하면, 272K를 자주 넘는 작업이라면 GPT-4.1이 비용 면에서 더 예측 가능합니다. 성능은 GPT-5.4가 높지만, 비용 관리를 중시하는 프로덕션 환경에서는 GPT-4.1의 플랫 단가 구조가 더 편합니다. 개발자 커뮤니티에서도 이 선택을 두고 꽤 활발한 논의가 있었습니다.
성능 기준으로 봐도 GPT-5.4는 OSWorld-Verified 75.0%로 인간 수준(72.4%)을 넘긴 컴퓨터 조작 능력을 갖추고 있습니다. 하지만 이 성능이 필요한 작업은 대부분 에이전트 방식이고, 에이전트는 토큰을 많이 씁니다. 272K 초과 리스크가 가장 높은 사용 패턴이기도 합니다.
(출처: OpenAI 공식 블로그 「Introducing GPT-5.4」 2026.03.05, Anthropic 발표 2026.03.13, Karozieminski Substack 2026.03.16)
Q&A
마치며
GPT-5.4는 성능 수치가 인상적입니다. GDPval 83.0%로 44개 직종에서 현직 전문가와 대등하거나 그 이상이라는 결과는 무시하기 어렵습니다. 그런데 막상 실제로 쓸 때 중요한 건 이 숫자만이 아닙니다.
272K 토큰이라는 기준선 하나가 API 비용을 2배로 만들 수 있고, 이 조건은 초과분에만 적용되는 게 아니라 전체 세션에 소급 적용됩니다. 공식 문서를 직접 찾아보기 전까지는 모르고 지나치기 쉬운 내용입니다.
개인적인 판단으로는, ChatGPT 앱 중심 사용자라면 이 조건이 거의 영향을 주지 않습니다. Plus에서 컨텍스트 창이 256K로 막혀 있어서 앱에서는 이 기준을 물리적으로 넘을 수 없습니다. 하지만 API나 Codex로 에이전트를 돌리거나 긴 문서 처리를 자동화하는 방식으로 쓴다면, 사전에 토큰 수를 파악하는 습관이 중요합니다.
“효율이 좋아서 사실 더 저렴하다”는 표현은 272K 이하 작업에서만 유효합니다. 장문 작업에서는 GPT-4.1의 플랫 단가 구조가 비용 예측성 면에서 더 편할 수 있다는 점도 기억해두면 좋습니다.
📚 본 포스팅 참고 자료
본 포스팅은 2026년 3월 30일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 가격, 한도, 컨텍스트 창 크기 등은 OpenAI 공식 문서에서 최신 정보를 확인하시기 바랍니다.











댓글 남기기