GPT-5.4 토큰 한도, 1M이라고 전부 쓸 수 있는 게 아닙니다

Published on

in

GPT-5.4 토큰 한도, 1M이라고 전부 쓸 수 있는 게 아닙니다

2026.03.05 기준 / GPT-5.4 (gpt-5.4-2026-03-05)

272K 넘는 순간 비용 구조가 완전히 달라집니다. ChatGPT와 API에서 실제로 쓸 수 있는 한도도 따로 있습니다.

GPT-5.4
토큰 한도
API 비용
ChatGPT Plus

1M이라는 숫자, 어디서 쓰는 1M인가요?

OpenAI 공식 발표문을 직접 보면 이렇게 나와 있습니다. “Codex와 API에서 GPT-5.4는 최대 1M 토큰 컨텍스트를 지원한다.” 핵심은 Codex와 API입니다. (출처: openai.com/index/introducing-gpt-5-4/, 2026.03.05)

ChatGPT 웹·앱에서 GPT-5.4 Thinking을 수동으로 선택하면 이야기가 달라집니다. OpenAI 공식 헬프 문서에 따르면 Plus/Business 플랜에서 Thinking 모드의 컨텍스트 윈도우는 256K(입력 128K + 출력 128K)이고, Pro 플랜만 400K(입력 272K + 출력 128K)입니다. (출처: help.openai.com/en/articles/11909943, 2026.03.24 기준)

💡 공식 발표문과 헬프 문서를 나란히 놓고 보니 이 차이가 보였습니다.

API / Codex: 1,050,000 토큰 (1.05M)  |  ChatGPT Plus: 256K  |  ChatGPT Pro: 400K

같은 GPT-5.4라도 어디서 쓰느냐에 따라 실제로 다룰 수 있는 컨텍스트 크기가 완전히 다릅니다. 발표에서 강조한 1M은 API 개발자 기준의 수치입니다.

▲ 목차로 돌아가기

272K를 넘으면 초과분만 비싸지는 게 아닙니다

API를 쓰는 개발자라면 여기가 핵심입니다. 보통 가격 구간이 나뉘면 초과분에만 높은 단가가 붙는다고 생각합니다. 데이터 요금제처럼요. GPT-5.4는 다릅니다.

⚠️ OpenAI 공식 모델 문서에는 이렇게 나와 있습니다.
“For models with a 1.05M context window (GPT-5.4 and GPT-5.4 pro), prompts with >272K input tokens are priced at 2x input and 1.5x output for the full session.”
(출처: developers.openai.com/api/docs/models/gpt-5.4, 2026.03.24 기준)

“full session”이라는 두 단어가 중요합니다. 272K를 1토큰이라도 넘는 순간, 그 요청 전체가 높은 요율로 청구됩니다. 0~272K 구간을 일반 단가로, 나머지만 비싸게 내는 구조가 아닙니다.

실제 단가를 직접 계산해 보겠습니다. 입력 토큰 300,000개짜리 요청을 1건 보낸다고 가정합니다.

구분 입력 단가(/1M) 출력 단가(/1M) 30만 토큰 입력 비용
272K 이하 $2.50 $15.00 $0.75
272K 초과 (300K) $5.00 (2x) $22.50 (1.5x) $1.50 (2배)

28,000토큰(약 한국어로 1만 자 분량)만 초과해도 그 요청 전체 입력 비용이 2배가 됩니다. 단순히 “조금 초과했으니 조금만 더 내면 되겠지”가 아닙니다.

추가로 출력 비용도 오릅니다. 272K를 넘는 요청에서 나오는 출력 토큰은 $15.00에서 $22.50으로 50% 올라갑니다. 코드 생성이나 긴 문서 작성처럼 출력이 많은 작업이라면 그 차이가 더 커집니다.

▲ 목차로 돌아가기

ChatGPT에서 GPT-5.4 Thinking의 실제 한도

API 이야기가 낯선 일반 ChatGPT 사용자라면 이 섹션이 더 현실적으로 와닿을 겁니다. GPT-5.4 Thinking을 ChatGPT 앱에서 수동으로 선택하면, Plus/Business 기준으로 주당 3,000건의 메시지 한도가 있습니다.

3,000건이면 넉넉해 보이지만, 하루 평균 약 428건 수준입니다. 코딩 작업이나 문서 분석처럼 Thinking 모드를 집중적으로 쓰는 날에는 생각보다 빨리 줄어든다는 실사용 후기가 많습니다. 한도에 도달하면 팝업이 뜨고, 그 이후에는 수동 선택이 차단됩니다. (출처: help.openai.com/en/articles/11909943, 2026.03.24 기준)

ChatGPT 플랜 Thinking 수동 한도 컨텍스트 윈도우
Free 지원 안 됨
Plus / Business 주 3,000건 256K (입력 128K + 출력 128K)
Pro / Enterprise 무제한* 400K (입력 272K + 출력 128K)

* Pro/Enterprise는 어뷰징 가드레일 내에서 무제한. 자동화 추출이나 계정 공유는 약관 위반.

Pro 플랜에서는 컨텍스트가 400K까지 열리지만, 입력은 여전히 272K로 묶여 있습니다. 나머지 128K는 출력을 위한 공간입니다. API에서 1M을 전부 입력에 넣는 것과는 구조가 다릅니다.

▲ 목차로 돌아가기

자동 전환이 주간 한도를 안 건드리는 이유

이 부분은 ChatGPT 헬프 문서에 딱 한 줄로 나와 있는데, 거의 언급되지 않는 내용입니다.

💡 공식 발표문과 헬프 문서를 같이 읽어보니 이런 구조가 확인됐습니다.

“Automatic switching from GPT-5.3 Instant to GPT-5.4 Thinking does not count toward this weekly limit.”
— OpenAI 헬프 문서, 2026.03.24 기준

ChatGPT의 ‘Instant’ 모드를 선택해 두면, OpenAI 시스템이 복잡한 질문에 자동으로 Thinking 모드를 쓰기도 합니다. 이때 소비되는 Thinking 사용량은 주 3,000건 카운트에 잡히지 않습니다.

실용적으로 해석하면 이렇습니다. 모델 피커에서 굳이 ‘Thinking’을 수동으로 누르지 않아도, 어렵고 긴 질문을 넣으면 시스템이 알아서 추론을 써줍니다. 그 부분은 주간 한도에서 빠집니다. 주 3,000건을 아껴 써야 할 사람이라면 이 구조를 활용할 만합니다.

물론 수동으로 선택했을 때만큼 항상 깊이 추론하지는 않습니다. 그리고 한도를 다 소진한 이후에도 자동 전환은 여전히 작동합니다. 하루 Thinking을 진하게 쓴 날이라도, 자동 전환을 통한 보조 추론은 계속 받을 수 있습니다.

▲ 목차로 돌아가기

272K 아래로 유지하면 비용이 얼마나 달라지나

API를 직접 쓰는 분들이라면 272K 기준선을 지키는 것이 단순히 좋은 습관이 아니라, 비용 절반을 날리느냐 아니냐의 문제입니다. 직접 계산식으로 차이를 보겠습니다.

📊 시나리오 비교 — 대형 코드베이스 분석 1건 (입력 400K + 출력 8K 토큰 기준)

[ 272K 초과 시 ]
입력 400K × $5.00/1M = $2.00
출력 8K × $22.50/1M = $0.18
합계 = $2.18

[ 272K 이하로 분할 처리 시 (2회 요청) ]
입력 200K × 2 × $2.50/1M = $1.00
출력 8K × $15.00/1M = $0.12
합계 = $1.12

절약액: $1.06 → 약 48% 절감

분할 처리로 1,500원 이상을 한 요청에서 아낄 수 있습니다. 하루 수백 건을 돌리는 서비스라면 이 차이가 월 단위로 수십만 원 이상 벌어집니다.

캐시 입력을 쓰면 추가로 절약됩니다. 같은 시스템 프롬프트가 반복되는 워크플로우에서 캐시 입력 단가는 $0.25/1M으로, 일반 입력의 10분의 1입니다. 그리고 OpenAI가 공개한 Tool Search 기능을 쓰면 도구 정의를 미리 컨텍스트에 다 넣지 않아도 되어서 토큰 사용량이 최대 47%까지 줄어들기도 했습니다. (출처: openai.com/index/introducing-gpt-5-4/, 2026.03.05)

▲ 목차로 돌아가기

512K~1M 구간에서 정확도가 무너지는 벤치마크

비용 문제만이 아닙니다. 실제로 1M 근처까지 컨텍스트를 채웠을 때 성능이 어떻게 변하는지, OpenAI가 공개한 벤치마크에 숫자가 남아 있습니다.

💡 공식 벤치마크 수치와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

OpenAI의 Graphwalks BFS 평가(컨텍스트 구간별 정확도)에서 GPT-5.4는 256K까지는 93.0%를 유지하다가, 256K~1M 구간에서 21.4%로 떨어집니다. 4배가 넘게 빠집니다.
(출처: openai.com/index/introducing-gpt-5-4/ 벤치마크 테이블, 2026.03.05)

127K~272K 구간이 성능 대비 비용 효율이 가장 좋은 구간입니다. 이 범위 안에서는 정확도가 약 97% 수준을 유지합니다. 여기를 벗어나면 비용도 오르고 정확도도 흔들리기 시작합니다.

결국 “1M이니까 다 집어넣자”는 전략은 비용 낭비이면서 동시에 정확도 저하 위험을 안는 선택입니다. 실사용에서는 272K 이하 유지, 필요하다면 문서 분할이나 요약 모델 조합 사용이 현실적인 접근입니다.

개인적으로 이 부분이 GPT-5.4 토큰 한도에서 제일 아쉬운 지점입니다. 1M이라는 숫자가 주는 기대와 실제 성능 커브의 간극이 너무 큽니다. 솔직히 말하면, 현재 단계에서 512K 이상 구간은 “기술적으로 가능하다”는 시연용에 가깝습니다.

▲ 목차로 돌아가기

Q&A

GPT-5.4 무료 사용자도 1M 토큰 컨텍스트를 쓸 수 있나요?

272K 초과 과금은 ChatGPT 구독자에게도 적용되나요?

아닙니다. 272K 초과 시 2x 과금은 API 사용자에게만 해당합니다. ChatGPT Plus/Pro 구독자는 토큰 단가를 직접 내는 구조가 아니고, 플랜별로 컨텍스트 윈도우 크기 자체가 256K 또는 400K로 정해져 있습니다.

주 3,000건 한도를 다 쓰면 GPT-5.4 Thinking을 전혀 못 쓰나요?

수동 선택은 차단되지만, 자동 전환은 계속 작동합니다. Instant 모드에서 복잡한 질문을 보내면 시스템이 자동으로 Thinking을 쓰기도 하고, 이 경우는 주간 카운트에 포함되지 않습니다. 다만 수동 선택보다 추론 깊이가 얕을 수 있습니다.

GPT-5.4 mini도 272K 초과 페널티가 있나요?

지식 정보 컷오프 날짜가 2025년 8월인데, 최신 정보는 어떻게 접근하나요?

▲ 목차로 돌아가기

마치며

개인 ChatGPT 사용자라면 주 3,000건 한도와, 자동 전환이 그 카운트를 건드리지 않는다는 점만 알아 두면 충분합니다. API를 쓰는 개발자라면 272K 기준선을 코드 레벨에서 체크하는 로직을 넣어 두는 게 실용적입니다.

솔직히 1M 컨텍스트라는 숫자는 아직 마케팅 측면이 더 크다고 봅니다. 실제로 성능과 비용 둘 다 괜찮은 구간은 272K 이하입니다. 그 범위 안에서 쓰는 것이, 지금 단계에서 GPT-5.4를 가장 합리적으로 쓰는 방법입니다.

본 포스팅 참고 자료

  1. OpenAI 공식 GPT-5.4 발표문 — openai.com/index/introducing-gpt-5-4/
  2. OpenAI 헬프센터 — GPT-5.3·5.4 사용 한도 & 컨텍스트 윈도우 — help.openai.com/en/articles/11909943
  3. OpenAI 개발자 문서 — GPT-5.4 모델 스펙 & 요금 — developers.openai.com/api/docs/models/gpt-5.4
  4. OpenAI API 요금 공식 페이지 — openai.com/ko-KR/api/pricing/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 모든 수치는 2026년 3월 24일 기준 공식 문서를 바탕으로 작성되었으며, OpenAI의 업데이트에 따라 달라질 수 있습니다. 최신 정보는 OpenAI 공식 사이트에서 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기