GPT-5.4 / GPT-5.4 Pro
OpenAI 공식 자료 기반
GPT-5.4, 1M 컨텍스트라더니 내 화면엔 없습니다
2026년 3월 5일, OpenAI가 GPT-5.4를 공개했습니다. 발표문 첫 줄부터 “1M 토큰 컨텍스트, 인간 초과 컴퓨터 사용 성능”이 등장합니다. 그런데 ChatGPT Plus 구독자 화면에서 실제로 확인해보면 이야기가 달라집니다. 공식 문서를 직접 뜯어봤습니다.
GPT-5.4가 실제로 뭔가요
GPT-5.4는 OpenAI가 2026년 3월 5일 ChatGPT, API, Codex에 동시 배포한 최신 프런티어 모델입니다. 이전까지 코딩 특화 모델이었던 GPT-5.3-Codex의 역량을 범용 모델에 통합한 게 이번 릴리스의 핵심입니다. (출처: OpenAI 공식 발표, 2026.03.05)
ChatGPT에서는 “GPT-5.4 Thinking”이라는 이름으로 제공되며, Plus·Team·Pro 구독자라면 모델 선택 창에서 바로 선택할 수 있습니다. 기존에 쓰던 GPT-5.2 Thinking은 2026년 6월 5일에 레거시 모델 영역에서도 완전 종료됩니다.
모델 구성이 조금 복잡합니다
GPT-5.4는 단일 모델처럼 보이지만 실제로는 두 가지 티어로 나뉩니다. 기본 GPT-5.4(Thinking)와 고성능 GPT-5.4 Pro입니다. ChatGPT 인터페이스에서는 Instant(GPT-5.3 기반)·Thinking(GPT-5.4)·Pro(GPT-5.4 Pro) 세 가지가 모델 피커에 표시됩니다. API에서는 각각 gpt-5.4와 gpt-5.4-pro로 구분됩니다.
여기서 중요한 점 하나 — Instant 모드를 선택해도 ChatGPT가 질문 복잡도를 판단해 자동으로 GPT-5.4 Thinking으로 전환할 수 있습니다. 이 자동 전환분은 Thinking 주간 한도(3,000건)에서 차감되지 않습니다. (출처: OpenAI Help Center, GPT-5.3 and GPT-5.4 in ChatGPT)
1M 컨텍스트, ChatGPT에선 사실이 아닙니다
GPT-5.4 발표문에서 가장 많이 언급된 숫자가 “1M 토큰 컨텍스트”입니다. 맞습니다, 1M이 가능합니다. 다만 어디서 가능한지를 봐야 합니다.
💡 공식 발표문과 Help Center 내용을 같이 놓고 보니 이런 차이가 보였습니다
OpenAI 발표문은 “API와 Codex에서 최대 1M 토큰 지원”이라고 명시하고 있습니다. ChatGPT 인터페이스의 컨텍스트 창은 GPT-5.4 Thinking 기준 GPT-5.2 Thinking과 동일하게 유지됩니다. (출처: OpenAI 공식 발표, 2026.03.05)
요금제별 실제 컨텍스트 창 크기
| 요금제 | GPT-5.3 Instant | GPT-5.4 Thinking |
|---|---|---|
| Free | 16K | — |
| Plus / Go | 32K | 256K (입력 128K) |
| Pro / Enterprise | 128K | 400K (입력 272K) |
| API / Codex (실험) | — | 1M (272K 초과분 2x 과금) |
ChatGPT Plus 구독자 기준으로 GPT-5.4 Thinking의 컨텍스트 창은 256K입니다. 이 수치는 GPT-5.2 Thinking과 동일합니다. (출처: OpenAI Help Center, 2026.03.27 기준) 즉, ChatGPT 인터페이스에서 1M 컨텍스트를 기대하고 GPT-5.4를 선택했다면 기대와 다른 경험을 하게 됩니다.
API나 Codex에서 1M 토큰을 쓸 수 있지만, 이 경우에도 272K를 초과하는 부분은 사용량이 2배로 집계됩니다. 공식 문서에서 “실험적 기능”으로 명시하고 있습니다.
인간을 앞선 컴퓨터 사용 — 수치로 확인한 실제 의미
GPT-5.4의 가장 큰 구조적 변화는 컴퓨터 사용(Computer Use) 기능이 범용 모델에 처음으로 기본 탑재됐다는 점입니다. 이전 버전까지는 별도 시스템으로 분리돼 있었습니다.
벤치마크 수치가 말하는 것
OSWorld-Verified 벤치마크(데스크톱 GUI 내비게이션 성공률)에서 GPT-5.4는 75.0%를 기록했습니다. 같은 벤치마크에서 인간 기준선은 72.4%입니다. GPT-5.2는 47.3%였습니다. (출처: OpenAI 공식 발표, 2026.03.05) 인간보다 약 2.6%p 높은 수치가 나왔다는 건, 반복적인 데스크톱 작업을 AI에게 맡겼을 때 평균적인 사람보다 완수율이 더 높다는 뜻입니다.
브라우저 기반 작업에서는 WebArena-Verified에서 67.3%, Online-Mind2Web에서 92.8%를 기록했습니다. 이전 ChatGPT Atlas Agent Mode가 70.9%였는데, GPT-5.4가 92.8%로 22%p 가까이 앞섰습니다. (출처: OpenAI 공식 발표, 2026.03.05) 단순히 빠른 게 아니라, 더 많은 단계를 스스로 완수한다는 뜻입니다.
실제로 뭘 할 수 있는 건가요
GPT-5.4는 스크린샷을 보고 마우스 클릭과 키보드 입력을 직접 발행하거나, Playwright 같은 라이브러리를 통해 코드를 작성해 컴퓨터를 조작할 수 있습니다. 개발자가 developer message로 동작 범위와 안전 수준을 직접 설정할 수 있어서, 애플리케이션 특성에 맞게 리스크 허용 범위를 조정하는 것도 가능합니다.
다만 이 기능은 API와 Codex를 통해 접근하는 기능입니다. ChatGPT 일반 인터페이스에서 “컴퓨터를 대신 클릭해줘”라고 해도 바로 작동하지 않습니다. 개발 환경 셋업이 필요한 기능입니다.
Pro 버전이 오히려 뒤처지는 벤치마크가 있습니다
GPT-5.4 Pro는 ChatGPT Pro 구독자($200/월)와 Enterprise 사용자에게만 제공되는 최상위 티어입니다. 직관적으로는 “Pro가 무조건 더 낫겠지”라고 생각하게 됩니다. 그런데 공식 벤치마크 수치를 보면 그렇지 않습니다.
💡 벤치마크 수치를 나란히 놓고 보니 이런 패턴이 나왔습니다
전문직 업무를 평가하는 GDPval에서 기본 GPT-5.4가 83.0%, GPT-5.4 Pro가 82.0%입니다. 같은 회사의 상위 모델이 핵심 전문직 업무 벤치마크에서 하위 모델에게 밀리는 구조입니다. (출처: OpenAI 공식 발표 벤치마크 테이블, 2026.03.05)
GPT-5.4 vs GPT-5.4 Pro: 실제로 차이가 나는 영역
| 벤치마크 | GPT-5.4 | GPT-5.4 Pro | Pro 우위 |
|---|---|---|---|
| GDPval (전문직 업무) | 83.0% | 82.0% | ❌ 기본이 우세 |
| BrowseComp (웹리서치) | 82.7% | 89.3% | ✅ +6.6%p |
| ARC-AGI-2 (추상 추론) | 73.3% | 83.3% | ✅ +10.0%p |
| FrontierMath Tier 4 (고등수학) | 27.1% | 38.0% | ✅ +10.9%p |
| FinanceAgent v1.1 | 56.0% | 61.5% | ✅ +5.5%p |
Pro가 앞서는 건 극도로 어려운 추론 작업(고등수학, 프런티어 과학 연구)과 심층 웹 리서치 영역입니다. 일반적인 직장인 업무에서는 기본 GPT-5.4로도 충분하거나, 경우에 따라서는 기본 모델이 더 나은 결과를 냅니다.
Terminal-Bench 2.0(터미널 기반 코딩)에서는 GPT-5.4(75.1%)가 GPT-5.3-Codex(77.3%)에게 여전히 밀립니다. 터미널 전용 작업이 많다면 GPT-5.3-Codex를 선택하는 게 수치 상으로는 유리합니다.
툴서치: 토큰 47% 절감의 실제 조건
GPT-5.4에 새로 도입된 툴서치(Tool Search)는 도구 정의를 프롬프트에 미리 전부 올리지 않고, 모델이 필요할 때 그 도구의 정의를 꺼내 쓰는 방식입니다. 이전 방식에서는 도구 수가 많을수록 요청마다 수만 토큰이 컨텍스트를 잡아먹었습니다.
실제 테스트 수치
OpenAI는 Scale의 MCP Atlas 벤치마크 250개 태스크를 36개 MCP 서버를 모두 활성화한 상태에서 두 가지 방식으로 실행했습니다. 모든 도구 정의를 모델 컨텍스트에 직접 넣은 방식과, 툴서치를 통해 MCP 서버를 뒤에 배치한 방식입니다. 툴서치 적용 시 전체 토큰 사용량이 47% 줄었고 정확도는 동일했습니다. (출처: OpenAI 공식 발표, 2026.03.05) 정확도를 희생하지 않고 비용만 거의 절반으로 줄였다는 의미입니다.
이 기능은 MCP(Model Context Protocol) 서버를 활용하는 API 개발 환경에서 효과가 두드러집니다. 수만 토큰 분량의 도구 정의를 담은 MCP 서버를 여럿 연결하는 에이전트를 만든다면, 툴서치 도입만으로 요청당 비용이 대폭 줄어듭니다.
API 가격 구조 한눈에 보기
| 모델 | 입력 (1M토큰) | 캐시 입력 | 출력 (1M토큰) |
|---|---|---|---|
| gpt-5.2 | $1.75 | $0.175 | $14.00 |
| gpt-5.4 | $2.50 | $0.25 | $15.00 |
| gpt-5.2-pro | $21.00 | — | $168.00 |
| gpt-5.4-pro | $30.00 | — | $180.00 |
gpt-5.4는 gpt-5.2보다 입력 기준 약 43% 비싸지만, 툴서치로 토큰 사용량 자체를 47% 줄이면 실질 비용이 오히려 역전될 수 있습니다. Batch·Flex 가격은 표준 요율의 절반, Priority 처리는 두 배입니다. (출처: OpenAI 공식 발표, 2026.03.05)
요금제별 접근 조건과 가격 구조
GPT-5.4의 기능이 어디까지 열리는지는 요금제에 따라 크게 달라집니다. 정리해보면 이렇습니다.
ChatGPT 사용 한도 정리
| 요금제 | GPT-5.3 Instant 한도 | GPT-5.4 Thinking 한도 |
|---|---|---|
| Free | 5시간당 10회 | — |
| Go (월 13,000원) | 3시간당 160회 | 5시간당 10회 |
| Plus (월 29,000원) | 3시간당 160회 | 주간 3,000회 |
| Pro (월 299,000원) | 무제한(어뷰징 제외) | 무제한 + Pro 모델 |
Plus 기준 GPT-5.4 Thinking의 주간 한도는 3,000건입니다. 그런데 앞서 언급한 대로, Instant 모드에서 ChatGPT가 자동으로 Thinking으로 전환하는 경우는 이 3,000건에서 차감되지 않습니다. 자동 전환을 끄고 싶다면 모델 피커의 Configure 옵션에서 설정할 수 있습니다. (출처: OpenAI Help Center, 2026.03.27 기준)
GPT-5.4 Pro는 Pro 요금제 이상 전용입니다
GPT-5.4 Pro는 ChatGPT Pro($200/월, 한국 월 299,000원), Business, Enterprise, Edu 요금제에서만 사용 가능합니다. Plus 구독자라면 Thinking 모드까지가 최대입니다. 또한 GPT-5.4 Pro를 선택하면 Apps, Memory, Canvas, 이미지 생성 기능이 비활성화됩니다. (출처: OpenAI Help Center, 2026.03.27 기준) 최고 성능 모드로 전환하는 대신 일부 기능을 포기해야 합니다.
Thinking 시간은 Plus·Business 기준 Standard·Extended 두 단계, Pro는 Light·Standard·Extended·Heavy 네 단계까지 선택할 수 있습니다. 설정은 웹에서만 가능하고 모바일과 동기화되지 않습니다.
자주 묻는 질문
Q1. GPT-5.4는 ChatGPT Free 사용자도 쓸 수 있나요?
출시 시점 기준으로 GPT-5.4 Thinking은 Plus, Team, Pro, Business, Enterprise, Edu 등 유료 요금제 사용자에게만 제공됩니다. Free 사용자는 GPT-5.3 Instant만 사용할 수 있으며, 무료 티어용 GPT-5.4 접근 일정은 공식 발표에서 아직 밝히지 않았습니다. (출처: OpenAI Help Center, 2026.03.27 기준)
Q2. GPT-5.2 Thinking은 언제 완전히 없어지나요?
2026년 6월 5일에 레거시 모델 영역에서 완전 종료됩니다. GPT-5.4 출시(3월 5일) 이후 90일간 유료 사용자에게는 모델 피커 레거시 섹션을 통해 계속 사용할 수 있습니다. API의 gpt-5.2 모델 식별자는 별도 종료 일정이 아직 발표되지 않았습니다. (출처: OpenAI 공식 발표, 2026.03.05)
Q3. 컴퓨터 사용(Computer Use) 기능은 어떻게 써야 하나요?
API에서는 업데이트된 computer 도구를 통해 접근합니다. ChatGPT 인터페이스에서는 직접적인 컴퓨터 제어 기능이 제공되지 않으며, Codex를 통해 Playwright (Interactive) 실험적 스킬을 활용할 수 있습니다. 개발자 메시지를 통해 동작 범위와 안전 수준을 설정할 수 있습니다. (출처: OpenAI 공식 발표, 2026.03.05)
Q4. Thinking 모드에서 응답 중간에 방향을 바꿀 수 있다고 하는데, 어디서 되나요?
2026년 3월 5일 출시 시점 기준으로 chatgpt.com과 Android 앱에서 사용 가능합니다. iOS 앱은 추후 지원 예정으로 발표됐으며, 공식 문서에서 별도 일정을 밝히지 않았습니다. Thinking 시간 설정(Standard·Extended 등)은 웹에서만 가능하고 모바일과 동기화되지 않습니다. (출처: OpenAI Help Center, 2026.03.27 기준)
Q5. GPT-5.4 Pro를 선택하면 이미지 생성이 안 된다고요?
맞습니다. GPT-5.4 Pro 모드에서는 Apps, Memory, Canvas, 이미지 생성 기능이 비활성화됩니다. 최고 성능 추론 모드를 선택하는 대신 이 기능들을 포기해야 합니다. 이미지 생성이나 Memory 기능을 쓰려면 GPT-5.4 Thinking(기본) 모드로 돌아와야 합니다. (출처: OpenAI Help Center, 2026.03.27 기준)
마치며
GPT-5.4는 분명히 실질적인 업그레이드입니다. 전문직 업무 벤치마크에서 12%p 이상 뛰었고, 데스크톱 내비게이션에서 인간 기준선을 처음으로 넘었습니다. 코딩 특화 모델과 범용 추론 모델을 하나로 합쳤다는 것도 의미 있는 변화입니다.
그런데 발표 자료만 보고 기대하면 실망하는 지점이 두 군데 있습니다. 첫 번째는 1M 컨텍스트가 ChatGPT 인터페이스에는 해당되지 않는다는 점, 두 번째는 GPT-5.4 Pro가 일반 전문 업무에서 기본 GPT-5.4보다 오히려 점수가 낮다는 점입니다.
솔직히 말하면, Plus 구독자라면 당장 뭔가 드라마틱하게 달라졌다는 느낌보다는 “더 안정적이고 실수가 줄었다”는 체감이 먼저 올 것 같습니다. 컨텍스트 창이 동일한 이상 업무 범위의 폭보다 처리 품질이 달라졌다고 보는 게 맞습니다.
API 기반으로 에이전트를 개발하는 입장에서는 컴퓨터 사용 기능과 툴서치가 실질적인 변화입니다. 툴서치 하나만으로도 대형 MCP 연동 환경에서 비용이 절반 가까이 줄어드는 건 무시할 수준의 숫자가 아닙니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 (https://openai.com/index/introducing-gpt-5-4/)
- OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (https://help.openai.com/en/articles/11909943)
- OpenAI Deployment Safety Hub — GPT-5.4 Thinking System Card (https://deploymentsafety.openai.com/gpt-5-4-thinking)
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 작성 기준일은 2026년 3월 29일이며, GPT-5.4 및 ChatGPT 요금제 관련 사항은 OpenAI 공식 사이트에서 최신 내용을 직접 확인하시기 바랍니다. IT/AI 서비스 특성상 업데이트 주기가 짧아 본문 내용과 실제 서비스 간 차이가 생길 수 있습니다.











댓글 남기기