GPT-5.4 Thinking, 1M 토큰이라는 말이 절반만 맞습니다

Published on

2026년 3월 23일

2026.03.05 기준 · GPT-5.4 Thinking (gpt-5.4)

OpenAI가 2026년 3월 5일 GPT-5.4를 공개하면서 내세운 두 가지 숫자가 있습니다. “1M 토큰 컨텍스트”와 “token-efficient”한 가격 구조입니다. 막상 공식 문서를 나란히 놓고 보니, 이 두 주장 사이에 빠져 있는 조건들이 꽤 많았습니다.

GPT-5.4 Thinking
1M 컨텍스트 조건
Pro vs 표준 비교
Tool Search 절감

1M 토큰, ChatGPT에선 다른 이야기입니다

OpenAI 공식 발표문에는 “API와 Codex에서 최대 1M 토큰 컨텍스트를 지원한다”고 적혀 있습니다. (출처: OpenAI 공식 블로그, 2026.03.05) 그런데 같은 날 공개된 Help Center 문서에서 ChatGPT의 실제 컨텍스트 윈도우를 확인하면 숫자가 확 바뀝니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

GPT-5.4의 1M 컨텍스트는 API와 Codex에 한정된 이야기입니다. ChatGPT Plus·Business 플랜에서는 256K(입력 128K + 출력 128K), Pro 티어에서도 최대 400K(입력 272K + 출력 128K)가 한도입니다. 일반 ChatGPT 사용자가 경험하는 컨텍스트는 1M의 4분의 1 수준입니다.

플랜	컨텍스트 윈도우	입력 한도
ChatGPT Plus / Business	256K	128K
ChatGPT Pro	400K	272K
API (gpt-5.4)	표준 272K	별도 설정 시 1M*
Codex (실험적)	최대 1M*	272K 초과분 2× 과금

*272K 초과 구간은 토큰당 비용 2배 적용 (출처: OpenAI 공식 블로그)

API에서도 1M을 온전히 쓰려면 Codex 환경에서 `model_context_window`를 별도로 설정해야 하고, 272K를 넘는 토큰은 비용이 2배로 뛰어오릅니다. 입력 토큰 가격($2.50/M)에 2를 곱하면 $5.00/M이 됩니다. 1M 전체를 입력으로 채울 경우 표준 요금의 약 2.3배를 내야 한다는 계산이 나옵니다.

▲ 목차로 돌아가기

가격표를 그대로 믿으면 손해입니다

GPT-5.4가 전작보다 비싸다는 건 알려져 있습니다. 그런데 가격 인상 폭과 숨겨진 구조를 같이 보면 체감이 달라집니다. 공식 API 가격표에서 가져온 수치입니다. (출처: OpenAI 공식 블로그, 2026.03.05)

모델	입력 ($/M)	출력 ($/M)	캐시 입력
gpt-5.2	$1.75	$14.00	$0.175
gpt-5.4	$2.50	$15.00	$0.25
gpt-5.2-pro	$21.00	$168.00	–
gpt-5.4-pro	$30.00	$180.00	–

Batch·Flex 처리 시 표준 요금의 50%, Priority 처리 시 200% 적용

표준(gpt-5.4) 입력 요금은 gpt-5.2 대비 43% 인상됐습니다. 그런데 Pro 모델은 다른 차원입니다. gpt-5.2-pro → gpt-5.4-pro 입력 기준으로 약 43% 인상($21 → $30), 출력 기준 약 7% 인상($168 → $180)입니다.

📐 실제 비용 계산

10만 토큰을 입력하고 5만 토큰을 출력하는 작업을 100회 반복한다고 가정하면,
Pro는 표준 모델 대비 동일 작업에 12배를 냅니다. 이 차이를 뛰어넘을 성능 격차가 있는지가 핵심입니다.

OpenAI는 “token efficiency로 총 토큰 사용량이 줄어 실질 비용 부담이 완화된다”고 설명했습니다. (출처: OpenAI 공식 블로그, 2026.03.05) 실측에서도 gpt-5.2 대비 같은 문제를 푸는 데 토큰 사용이 유의미하게 줄었다는 보고가 있습니다. 하지만 단순 채팅이나 반복 작업에서는 효율성 이득이 가격 인상을 온전히 상쇄하기 어렵습니다.

▲ 목차로 돌아가기

GPT-5.4 Pro가 표준보다 더 잘하는 건 따로 있습니다

Pro 모델이 무조건 낫다고 생각하기 쉽습니다. 공식 벤치마크 표를 보면 생각이 달라집니다. (출처: OpenAI 공식 블로그, 2026.03.05)

💡 OpenAI 공개 벤치마크를 Pro와 표준 모델을 나란히 놓고 보면 이런 패턴이 나옵니다

GDPval(전문 지식업무)에서 GPT-5.4 표준이 83.0%, GPT-5.4 Pro가 82.0%를 기록했습니다. 12배 비싼 Pro가 대표 지식업무 벤치마크에서 표준보다 1%포인트 낮습니다. 반면 FrontierMath Tier 4(극난도 수학)에서는 표준 27.1% → Pro 38.0%로 차이가 10%포인트 이상 납니다.

벤치마크	GPT-5.4 표준	GPT-5.4 Pro	Pro 우위
GDPval (전문업무)	83.0%	82.0%	표준이 1% 앞서
BrowseComp (웹 리서치)	82.7%	89.3%	+6.6%p
FrontierMath Tier 4	27.1%	38.0%	+10.9%p
ARC-AGI-2 (추상추론)	73.3%	83.3%	+10.0%p
IB 모델링 (투자은행 스프레드시트)	87.3%	83.6%	표준이 3.7% 앞서

(출처: OpenAI 공식 블로그, 2026.03.05 — 전체 벤치마크 표 인용)

Pro가 표준을 확실히 앞서는 영역은 극난도 수학·과학 추론, 복잡한 웹 딥리서치, ARC-AGI-2 같은 추상 추론 태스크입니다. 반대로 일반 지식업무·스프레드시트 작업에서는 표준 모델이 Pro와 동등하거나 오히려 앞섭니다. 12배의 비용 격차를 정당화하려면 사용 목적이 후자가 아닌 전자 영역이어야 합니다.

▲ 목차로 돌아가기

Thinking 강도를 높이면 무조건 좋을까요?

GPT-5.4 Thinking에는 사고 깊이 조절 옵션이 있습니다. Plus·Business는 Standard와 Extended, Pro는 여기에 Light(가장 빠름)와 Heavy(가장 깊음)가 추가됩니다. (출처: OpenAI Help Center)

그런데 실사용 리포트에서 흥미로운 패턴이 반복됩니다. 개발자 Theo(t3.gg)가 일주일간 얼리 액세스로 테스트한 결과, 자체 벤치마크(Skatebench v2)에서 high 설정은 약 82%, x-high 설정은 오히려 81%를 기록했습니다. (출처: Reddit r/accelerate, 2026.03.06) OpenAI 공식 문서에도 “Standard(기본값, 속도·지능 균형)”와 “Extended/Heavy(깊은 추론이 필요할 때)” 로 구분하며, 기본값은 Standard임을 명시합니다.

왜 이런 일이 생길까요?

thinking 강도를 x-high로 올리면 모델이 필요 이상으로 문제를 분석하다가 오히려 방향을 잃는 경우가 생깁니다. Kelsey Piper(Vox 리포터) 역시 “Heavy Thinking이 반복적으로 타임아웃되면서 같은 시도를 반복하는 현상을 경험했다”고 밝혔습니다. Extended/Heavy는 수학적 난제·복잡한 법률 분석처럼 깊이가 결정적인 상황에서 쓰는 것이 맞고, 일반 작업에서 무턱대고 올리면 속도와 품질 모두 손해가 납니다.

ChatGPT에서 설정을 바꾸면 같은 설정이 이후 모든 대화에 그대로 적용되고 모바일과는 동기화되지 않습니다. 모바일에서 계속 과다하게 Heavy 설정이 켜져 있어도 알아채기 어렵습니다.

▲ 목차로 돌아가기

Tool Search가 가격 인상을 실질적으로 상쇄하는 구조

💡 가격 인상 공지 뒤에 쓰여 있는 조건을 함께 읽어봤습니다

OpenAI는 GPT-5.4에서 Tool Search를 도입했습니다. 기존에는 요청마다 사용 가능한 모든 도구 정의를 컨텍스트에 통째로 넣었습니다. 36개 MCP 서버가 연결된 환경에서 이 방식은 요청당 수만 토큰을 추가로 소모했습니다. Tool Search에서는 필요한 순간에만 도구 정의를 불러옵니다. 공식 실험 결과, 250개 MCP Atlas 태스크에서 전체 토큰 사용량이 47% 줄었고 정확도는 동일했습니다.

이걸 가격 인상과 같이 계산해 보겠습니다. gpt-5.2 기준 요청당 입력 토큰이 200K였다면, Tool Search 적용 후 GPT-5.4에서 같은 작업의 입력 토큰이 약 106K로 줄어듭니다.

gpt-5.2 비용: 0.2M × $1.75 = $0.35
gpt-5.4 (Tool Search 적용 후): 0.106M × $2.50 = $0.265
→ 토큰 효율화가 실현되면 실제 비용은 오히려 24% 줄어드는 구조입니다.

물론 이 수치는 MCP 서버가 많이 연결된 에이전트 환경에 한정됩니다. 단순 대화나 파일 한 건을 요약하는 식의 작업에서는 Tool Search 효과가 거의 없고, 가격 인상분이 그대로 반영됩니다. “token-efficient”라는 표현이 어떤 상황에서 성립하는지를 먼저 확인해야 합니다.

▲ 목차로 돌아가기

벤치마크 83%의 실제 의미와 숨겨진 맥락

OpenAI는 GDPval 83.0%를 가장 앞에 내세웠습니다. “44개 직종에서 전문가와 동등하거나 앞선 성과”라는 설명도 붙었습니다. 이 수치를 그대로 받아들이기 전에 측정 방식을 살펴볼 필요가 있습니다.

GDPval은 세일즈 프레젠테이션, 회계 스프레드시트, 응급실 스케줄, 제조 다이어그램 등 “잘 정의된(well-specified)” 작업을 모델이 수행하고 결과물을 업계 전문가와 비교하는 방식입니다. 추론 강도는 x-high로 설정됐습니다. (출처: OpenAI 공식 블로그, 2026.03.05) 즉, 지시가 명확하고 산출물이 정해진 형식이 있는 작업에서의 수치입니다.

반면 실사용 리포트에서는 “의도를 파악하는 능력(intent inference)이 Claude에 비해 여전히 뒤처진다”는 평가가 반복됩니다. 프롬프트에 암묵적인 맥락이 있거나 추가 설명 없이 의도를 읽어야 하는 상황에서 GPT-5.4가 자주 막힌다는 피드백이 개발자 커뮤니티(Reddit r/codex, r/accelerate)에서 나왔습니다. 이 부분은 GDPval 수치에 잡히지 않습니다.

오류율 감소도 맥락이 있습니다

OpenAI 공식 발표에서 “GPT-5.2 대비 개별 주장 오류 33% 감소, 전체 응답 오류 18% 감소”를 명시했습니다. (출처: OpenAI 공식 블로그, 2026.03.05) 기준점이 GPT-5.2임을 주의해야 합니다. 절대적 오류율이 아니라 전작 대비 상대적 개선치입니다. GPT-5.2의 오류율 자체가 높았다면 이 수치는 출발선이 낮은 곳에서의 개선을 나타냅니다.

GPT-5.4 Thinking이 의미 있는 도약인 건 맞습니다. 다만 “전문가 대체”나 “83% 정확도”를 문자 그대로 적용하기 전에, 내가 쓰려는 작업이 GDPval식 well-specified 태스크인지를 먼저 확인하는 게 실질적인 판단 기준이 됩니다.

▲ 목차로 돌아가기

Q&A

수동으로 Thinking을 선택해서 사용한 메시지만 3,000회에 산정됩니다. GPT-5.3 Instant에서 자동으로 Thinking으로 전환된 경우에는 주간 한도에 포함되지 않습니다. 한도 도달 후에도 자동 전환은 계속 일어날 수 있습니다. (출처: OpenAI Help Center)

GPT-5.4 Pro는 ChatGPT Pro·Business·Enterprise·Edu 플랜에서 사용 가능합니다. Plus 플랜에서는 지원되지 않습니다. API에서는 gpt-5.4-pro 모델 스트링으로 호출할 수 있으며, 이때 입력 $30/M·출력 $180/M 요금이 적용됩니다. (출처: OpenAI Help Center, OpenAI 공식 블로그)

GPT-5.4 출시 기준 90일 후인 2026년 6월 5일에 ChatGPT에서 완전 종료됩니다. 그 전까지는 모델 피커 → Legacy Models에서 수동 선택해 사용할 수 있습니다. (출처: OpenAI Help Center)

2026년 3월 18일 출시된 GPT-5.4 mini는 Free·Go 플랜 사용자가 Thinking 기능을 쓸 때 제공되는 경량 모델입니다. Plus 이상에서는 주간 한도 도달 시 자동 폴백으로 사용됩니다. 모델 피커에서는 선택 항목으로 노출되지 않습니다. (출처: OpenAI Model Release Notes, 2026.03.18)

컨텍스트 윈도우 설정은 웹과 모바일에서 동기화되나요?
+

Thinking 강도(사고 시간) 설정은 웹에서만 적용 가능하며 모바일과 동기화되지 않습니다. 웹에서 Extended를 선택해도 모바일 앱에서는 반영되지 않고, 반대도 마찬가지입니다. (출처: OpenAI Help Center)

▲ 목차로 돌아가기

마치며

GPT-5.4 Thinking은 GPT-5.2와 비교해 분명한 도약입니다. 컴퓨터 사용 능력은 인간 수준(OSWorld-Verified 75%)을 넘어섰고, 전문 지식업무에서의 일관성도 눈에 띄게 높아졌습니다. 개인적으로 가장 눈에 띄었던 변화는 mid-response 조정 기능입니다. 결과물이 방향을 잘못 잡았을 때 처음부터 다시 시작할 필요 없이 진행 중에 수정할 수 있다는 건 작업 흐름을 실질적으로 바꿉니다.

다만 솔직히 말하면, 홍보 문구에서 빠진 조건들이 꽤 많습니다. “1M 토큰”은 API·Codex 한정이고 ChatGPT에서는 256K~400K가 현실입니다. “token-efficient”는 Tool Search 혜택을 받는 에이전트 환경에서 성립하는 이야기입니다. “Pro가 최고 성능”은 극난도 수학과 심층 리서치에서만 표준을 크게 앞서고, 일반 지식업무에서는 표준이 더 높은 경우도 있습니다.

API를 쓰는 개발자라면 Tool Search가 실제로 적용되는 환경인지 먼저 확인하고 비용을 예측하는 것이 맞습니다. ChatGPT 사용자라면 Plus 플랜에서 주 3,000회 Thinking이 상당히 넉넉한 한도이고, 자동 전환 덕분에 수동으로 Thinking을 켜지 않아도 어려운 질문에선 자연스럽게 추론이 작동합니다. Pro 업그레이드는 극도로 어려운 수학·과학 문제나 깊이 있는 웹 리서치를 일상적으로 할 때 의미가 생깁니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격·한도·모델 정책 등 최신 정보는 OpenAI 공식 채널에서 반드시 확인하시기 바랍니다.

Aardvark OpenAI, AI모델비교, ChatGPT 2026, ChatGPT요금제, GPT-5.4

GPT-5.4 Thinking, 1M 토큰이라는 말이 절반만 맞습니다

1M 토큰, ChatGPT에선 다른 이야기입니다

가격표를 그대로 믿으면 손해입니다

GPT-5.4 Pro가 표준보다 더 잘하는 건 따로 있습니다

Thinking 강도를 높이면 무조건 좋을까요?

Tool Search가 가격 인상을 실질적으로 상쇄하는 구조

벤치마크 83%의 실제 의미와 숨겨진 맥락

Q&A

마치며

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4 Thinking, 1M 토큰이라는 말이 절반만 맞습니다

1M 토큰, ChatGPT에선 다른 이야기입니다

가격표를 그대로 믿으면 손해입니다

GPT-5.4 Pro가 표준보다 더 잘하는 건 따로 있습니다

Thinking 강도를 높이면 무조건 좋을까요?

Tool Search가 가격 인상을 실질적으로 상쇄하는 구조

벤치마크 83%의 실제 의미와 숨겨진 맥락

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기