GPT-5.4 Thinking
⚠️ 함정 3가지 확인 필수
2026년 3월 5일, OpenAI가 GPT-5.4를 공개하면서 가장 화제가 된 기능은 단연 네이티브 컴퓨터 사용(Computer Use)입니다. 스크린샷을 보고 마우스와 키보드를 직접 제어하는 이 기능은 OSWorld 벤치마크에서 인간 평균(72.4%)을 뛰어넘는 75.0%를 기록했습니다. 그런데 이 숫자만 보고 요금제를 결정하거나 코딩 작업까지 GPT-5.4로 몰아가면, 세 가지 지점에서 예상 밖의 벽을 만나게 됩니다.
(인간 기준 72.4% 초과)
(클로드 80.8%에 역전)
Thinking 주간 한도
Computer Use가 뭔지, 실제로 뭘 할 수 있는지
GPT-5.4 Computer Use는 AI가 화면 스크린샷을 인식하고, 마우스 클릭과 키보드 입력을 직접 수행하는 방식으로 컴퓨터를 제어하는 기능입니다. 단순히 코드를 짜거나 텍스트를 생성하는 게 아니라, 브라우저를 열고 로그인하고 데이터를 내려받는 일련의 작업을 자율적으로 처리합니다. OpenAI는 범용 모델 최초로 이 기능을 GPT-5.4에 네이티브로 탑재했습니다.
실제 성능 수치를 보면 인상적입니다. OSWorld-Verified 벤치마크에서 GPT-5.4가 75.0%를 기록했는데, 이는 인간 평균인 72.4%를 처음으로 초과한 결과입니다. (출처: OpenAI 공식 GPT-5.4 출시 발표, 2026.03.05) 이전 모델인 GPT-5.2가 같은 테스트에서 47.3%에 머물렀다는 점을 고려하면, 단 한 세대 만에 +27.7%p라는 압도적인 도약입니다. 이 수치가 의미하는 것은 단순합니다 — GPT-5.4는 이제 반복적인 컴퓨터 조작 작업에서 평균적인 사람보다 더 잘 수행한다는 뜻입니다.
구체적인 활용 예시로는 여러 탭에 걸친 데이터 수집 후 엑셀 정리, 특정 웹사이트 반복 로그인 후 정보 추출, Playwright를 통한 웹 앱 시각적 디버깅 등이 있습니다. Codex에서는 GPT-5.4가 파일을 직접 편집하고 터미널 명령을 실행하는 방식으로도 연동됩니다.
요금제별 사용 한도: Plus와 Pro는 생각보다 다르다
💡 이 섹션은 OpenAI 공식 Help Center의 “GPT-5.3 and GPT-5.4 in ChatGPT“(2026.03.17 기준)와 공식 출시 발표를 교차 분석한 내용입니다.
GPT-5.4 Thinking 기능은 ChatGPT 무료(Free) 플랜에서는 직접 선택할 수 없습니다. 무료 사용자는 5시간마다 GPT-5.3으로 10건만 사용 가능하며, 이를 초과하면 mini 모델로 자동 전환됩니다. Computer Use 기능 자체가 Thinking 레이어에 통합되어 있으므로, 무료 플랜에서 이 기능을 정식으로 사용하는 것은 현재 공식 문서상 지원되지 않습니다.
Plus 플랜(월 $20)에서는 GPT-5.4 Thinking을 직접 선택할 수 있지만, 주당 최대 3,000건이라는 한도가 적용됩니다. 이 한도에 도달하면 팝업 알림과 함께 Thinking 모드 선택이 차단됩니다. (출처: OpenAI Help Center, GPT-5.3 and GPT-5.4 in ChatGPT, 2026.03.17 기준) 주 3,000건은 하루 평균 약 428건인데, 업무용으로 자동화 에이전트를 돌리는 상황이라면 수 시간 안에 소진될 수도 있습니다. 이 한도가 실제 사용자에게 의미하는 것은 이겁니다 — Plus 요금제로 Computer Use를 업무 자동화에 활용하면 생각보다 훨씬 빨리 모드 전환이 강제된다는 점입니다.
| 요금제 | 월 요금 | GPT-5.4 Thinking | GPT-5.4 Pro | 주간 한도 |
|---|---|---|---|---|
| Free | $0 | ❌ 불가 | ❌ 불가 | GPT-5.3: 5h마다 10건 |
| Go | $8 | ⚠️ 5h마다 10건 | ❌ 불가 | GPT-5.3: 3h마다 160건 |
| Plus | $20 | ✅ 선택 가능 | ❌ 불가 | 주 3,000건 상한 |
| Pro | $200 | ✅ 무제한(어뷰징 제외) | ✅ 무제한(어뷰징 제외) | 어뷰징 방지 가이드라인 |
| Business | $25/유저 | ✅ 선택 가능 | ⚠️ 애드온 필요 | 주 3,000건 상한 |
▲ 출처: OpenAI Help Center, GPT-5.3 and GPT-5.4 in ChatGPT (2026.03.17 기준)
Pro 가입하면 오히려 잠기는 기능들
⚠️ 여기서 많은 분들이 예상 못 하는 지점이 나옵니다.
ChatGPT Pro($200/월)에 가입하면 GPT-5.4 Pro와 Computer Use를 무제한으로 사용할 수 있습니다. 하지만 공식 Help Center에는 이런 문장이 명시되어 있습니다: “Apps, Memory, Canvas, and image generation are not available with Pro.” (출처: OpenAI Help Center, GPT-5.3 and GPT-5.4 in ChatGPT, 2026.03.17 기준)
이것이 의미하는 것은 구체적입니다. Pro 플랜에서 GPT-5.4 Pro 모드를 활성화하면 — 즉 가장 강력한 reasoning 모드를 쓰는 순간 — 아래 기능들이 동시에 차단됩니다.
- Apps 통합 (ChatGPT 앱 생태계 연동 기능)
- Memory (대화 내용을 지속 기억하는 개인화 기능)
- Canvas (문서·코드를 나란히 보며 실시간 편집하는 기능)
- Image Generation (DALL-E 계열 이미지 생성)
월 $200를 결제하고 Pro 모드로 전환하는 순간, 오히려 Plus에서 자유롭게 쓰던 메모리와 캔버스를 잃게 됩니다. 이 역설이 실제로 어떤 상황을 만들어내는지 생각해보면 이렇습니다 — 장기 프로젝트를 맥락 기억에 의존해 진행하던 사람이 Pro로 업그레이드하면 기존 기억이 이어지지 않는 “리셋된 AI”와 대화하게 되는 셈입니다.
단, Pro 모드가 아닌 상태(GPT-5.3 Instant나 Auto 모드)에서는 이 기능들이 그대로 유지됩니다. 문제는 Computer Use를 제대로 활용하려면 필연적으로 Thinking 또는 Pro 모드를 써야 한다는 점입니다. 결국 “Computer Use를 극대화하려면 메모리와 캔버스를 포기해야 한다”는 구조적 트레이드오프가 존재합니다.
코딩 작업에서 GPT-5.4가 역전 당하는 이유
💡 이 분석은 OpenAI 공식 벤치마크 데이터와 독립 연구자 Nate B Jones의 비교 테스트를 교차한 결과입니다.
GPT-5.4의 홍보 포인트는 “추론·코딩·컴퓨터 사용을 하나로 통합”입니다. 컴퓨터 제어 성능이 인간 수준을 넘은 건 사실이지만, 코딩 전문 벤치마크에서 이 주장은 상당 부분 무너집니다. SWE-Bench Pro(실제 소프트웨어 버그 수정 테스트)에서 GPT-5.4는 57.7%를 기록했지만, Claude Opus 4.6는 80.8%, Gemini 3.1 Pro는 80.6%를 달성했습니다. (출처: emelia.io, GPT-5.4 Review, 2026.03.09) 즉 코딩 정확도에서 GPT-5.4는 경쟁 모델들에 무려 23%p나 뒤처집니다. 이 격차가 의미하는 것은 명확합니다 — 코드베이스 수정이나 버그 픽스처럼 정밀한 코딩 작업에서는 GPT-5.4가 최선의 선택이 아닐 수 있다는 뜻입니다.
| 벤치마크 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 80.8% ✅ | 80.6% ✅ |
| OSWorld (컴퓨터 제어) | 75.0% ✅ | 72.7% | 미공개 |
| BrowseComp (웹 리서치) | 82.7% | 86.6% | 미공개 |
| GDPval (전문직 44종) | 83.0% ✅ | 미공개 | 미공개 |
▲ 출처: OpenAI 공식 발표(2026.03.05), emelia.io Review(2026.03.09)
독립 연구자 Nate B Jones의 블라인드 테스트에서 더 극명한 사례가 나왔습니다. “세차장이 100미터 앞에 있다. 걸어가야 할까, 운전해서 가야 할까?”라는 질문에 GPT-5.4는 “걷는 게 낫다”고 답했고, Claude Opus 4.6와 Gemini 3.1 Pro는 모두 “차를 세차장에 가져가야 하니 운전해야 한다”고 정확히 답했습니다. 전문직 벤치마크에서 83%를 기록한 모델이 상식적 추론에서 이런 오류를 낸다는 점은, 자동화 에이전트로 사용할 때 예상치 못한 지점에서 실수가 발생할 수 있다는 신호로 읽힙니다.
272K 토큰 넘는 순간 API 비용이 2배 뛴다
GPT-5.4의 또 다른 화제는 최대 100만 토큰(1.05M)의 컨텍스트 창입니다. 코드베이스 전체나 장문의 계약서를 한 번에 넣을 수 있다는 점에서 매력적으로 들립니다. 그런데 API로 사용할 때 중요한 함정이 있습니다. 입력 토큰이 272K를 초과하는 순간, 입력 가격이 기본 $2.50/1M에서 $5.00/1M으로 2배 뛰어오릅니다. (출처: OpenAI 공식 API 가격표, 2026.03 기준)
실제로 이게 어떤 규모인지 계산해 보면 이렇습니다:
📊 직접 검증 가능한 비용 계산
시나리오 1: 250K 토큰 입력 (272K 미만)
250K × ($2.50 / 1,000K) = $0.625
시나리오 2: 300K 토큰 입력 (272K 초과)
· 첫 272K분: $2.50/1M → $0.68
· 초과 28K분: $5.00/1M → $0.14 → 총 $0.82
→ 50K 토큰 더 넣었는데 비용이 31% 더 올라갑니다. 매일 이런 쿼리를 100번 돌리면 월 비용 차이가 상당합니다.
ChatGPT 구독에서는 컨텍스트 창 적용 방식도 플랜에 따라 다릅니다. Thinking 모드에서 Plus/Business는 최대 256K(입력 128K + 출력 128K), Pro/Enterprise는 최대 400K(입력 272K + 출력 128K)입니다. “1M 토큰 지원”이라는 헤드라인은 API와 Codex 환경에서의 이야기이며, 일반 ChatGPT 구독에서는 플랜에 따라 이보다 훨씬 작은 창이 적용됩니다.
결국 어떤 상황에서 GPT-5.4를 써야 하는가
💡 벤치마크 교차 분석과 실사용 사례를 종합한 선택 기준입니다.
지금까지 살펴본 내용을 정리하면, GPT-5.4가 진짜 강점을 발휘하는 영역과 그렇지 않은 영역이 꽤 명확하게 나뉩니다. GDPval 벤치마크에서 GPT-5.4가 기록한 83.0%는 GPT-5.2의 70.9%에서 한 세대 만에 뛰어오른 수치로, 전문직 44개 직종의 실제 업무 성과를 측정한 것입니다. 이 수치가 가장 의미 있는 사람은 엑셀 모델링, 프레젠테이션 제작, 금융 분석처럼 반복적이고 도구 집약적인 업무를 자동화하려는 경우입니다.
EvoLink.AI의 종합 평가를 직접 인용하면 이렇습니다: “Gemini 3.1 Pro는 가성비 왕, Claude Opus 4.6는 코딩 품질 승자, GPT-5.4는 에이전트 워크플로우에서 평가하라.” 세 모델이 모두 강한 특정 영역이 있고, GPT-5.4가 ‘모든 걸 다 잘하는 최강 모델’이라는 마케팅 언어를 그대로 믿으면 코딩 품질과 메모리 유지 면에서 실망이 따라옵니다.
Q&A
마치며
GPT-5.4 Computer Use는 분명히 실질적인 도약입니다. OSWorld에서 인간 기준(72.4%)을 넘어선 75.0%는 허수가 아니며, GDPval 83%는 전문직 업무 자동화의 가능성을 현실적으로 보여줍니다. 다만 그 성능이 모든 상황에서 고르게 빛나지 않는다는 점을 함께 이해해야 합니다.
세 가지 핵심 함정을 다시 정리하면: ① Plus 플랜에서 Thinking 모드는 주 3,000건 상한이 있어 집중 사용 시 예상보다 빨리 차단될 수 있고, ② Pro 플랜에서 Pro 모드를 켜면 메모리·캔버스·이미지 생성이 동시에 사용 불가가 되며, ③ 코딩 정확도는 Claude Opus 4.6와 Gemini 3.1 Pro에 23%p 뒤처집니다. “컴퓨터를 사람보다 잘 다룬다”는 말은 특정 조건 아래서는 맞지만, 그 조건이 아닐 때는 훨씬 비싼 가격에 제한된 선택지를 마주하게 됩니다.
결국 GPT-5.4의 진짜 강점은 에이전트 자동화·도구 호출·컴퓨터 제어에 집중되어 있습니다. 이 영역에서 확실한 수요가 있다면 최선의 도구지만, 그 바깥에서는 더 저렴하거나 더 정확한 선택지가 존재합니다. 요금제를 결정하기 전에, 자신의 실제 작업이 어느 열에 해당하는지 먼저 확인하는 것이 가장 실용적인 접근입니다.
본 포스팅 참고 자료
- ① OpenAI 공식 GPT-5.4 출시 발표 — openai.com/index/introducing-gpt-5-4/
- ② OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT — help.openai.com
- ③ Emelia.io — ChatGPT 5.4 Review (2026.03.09) — emelia.io/hub/chatgpt-5-4-review
- ④ GlobalGPT — GPT-5.4 Pricing 2026 — glbgpt.com/hub/gpt-5-4-pricing/
- ⑤ Data Studios — ChatGPT 5.4 Free Tier Analysis (2026.03) — datastudios.org
※ 본 포스팅은 2026년 3월 17일 기준으로 작성되었습니다. OpenAI의 서비스 정책, UI, 요금제, 사용 한도는 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 최신 정보는 반드시 OpenAI 공식 사이트(openai.com)와 Help Center를 통해 확인하시기 바랍니다.


댓글 남기기