GPT-5.4 컴퓨터 사용: “인간 넘었다”더니 Plus에선 못 쓰는 진짜 이유
OSWorld 75%로 인간(72.4%)을 초과했다는 발표, 그런데 정작 월 $20 Plus 가입자에게는 컴퓨터 사용 기능이 제공되지 않습니다. 1M 토큰 컨텍스트도 기본값이 아닙니다. 공식 문서가 밝힌 숨겨진 조건들을 정리했습니다.
Computer Use
OpenAI 2026
AI 에이전트
왜 지금 GPT-5.4가 중요한가 — 진짜 변화 포인트
GPT-5.4는 2026년 3월 5일 OpenAI가 공식 출시한 최신 메인라인 모델입니다. 이번 업데이트를 단순한 버전 번호 변경으로 보는 시각이 있는데, 실제로는 성격이 전혀 다릅니다. 이전까지 ChatGPT에서 “생각하는 AI” 기능과 “일반 대화” 기능은 별도 모델로 존재했습니다. GPT-5.4는 이 두 가지를 하나의 모델에 통합하면서, 추가로 컴퓨터 직접 조작 기능까지 메인라인에 처음으로 탑재했습니다.
OpenAI 공식 발표에 따르면 GPT-5.4는 GDPval 벤치마크에서 83.0%를 기록했습니다. GDPval은 미국 GDP에 기여하는 9개 산업, 44개 직종에 걸친 실제 지식 업무를 테스트하는 평가입니다. 영업 프레젠테이션 작성, 회계 스프레드시트 구성, 의료 일정 수립 등이 포함됩니다. 이전 모델 GPT-5.2가 동일 벤치마크에서 70.9%를 기록한 것과 비교하면 의미 있는 도약입니다.
💡 이 수치가 독자에게 의미하는 것: GPT-5.4가 전문가 수준의 업무를 10배 빠르게, 훨씬 낮은 비용으로 처리할 수 있다는 의미입니다. 단, 이 수치는 “1회 시도” 조건 하의 벤치마크이며, 실제 반복적인 업무 맥락에서의 성능은 다를 수 있습니다. (출처: OpenAI 공식 발표, 2026.03.05)
핵심 변화를 요약하면, 추론과 코딩, 에이전트 기능이 단일 모델에 통합됐고, 오류율이 이전 대비 줄었습니다. GPT-5.4는 개별 팩트 오류가 GPT-5.2 대비 33% 감소했고, 오류를 포함하는 전체 응답도 18% 줄었다고 OpenAI는 밝혔습니다. (출처: OpenAI 공식 발표, 2026.03.05)
컴퓨터 사용 기능의 실체 — 벤치마크 vs 실제 접근 조건
GPT-5.4의 가장 화제가 된 기능은 단연 컴퓨터 사용(Computer Use)입니다. OpenAI는 GPT-5.4가 OSWorld-Verified 벤치마크에서 75.0%를 달성했다고 발표했습니다. 인간 기준선이 72.4%이니, 처음으로 AI가 이 테스트에서 인간을 넘어선 셈입니다. GPT-5.2의 47.3%와 비교하면 27.7%p의 도약입니다.
OSWorld는 스크린샷과 키보드·마우스 입력만으로 데스크탑 환경을 조작하는 능력을 측정합니다. “Quicken에서 이번 달 장부 정리해줘”라고 요청하면 AI가 앱을 직접 실행하고, UI를 탐색하고, 입력을 완료하는 방식입니다. 이 기능이 ChatGPT Plus($20/월)에서도 바로 쓸 수 있다고 생각하신다면, 실제로 써보면 당황하는 이유가 있습니다.
⚠️ 잠깐, 이게 사실입니다: 컴퓨터 사용(Computer Use) 기능은 ChatGPT 앱에서 Plus 플랜으로는 직접 제공되지 않습니다. 이 기능은 API(개발자 인터페이스)와 Codex(코딩 환경)에서 제공됩니다. 일반 ChatGPT에서 “컴퓨터를 조작해줘”라고 요청해도 ChatGPT UI가 사용자 컴퓨터를 직접 제어하진 않습니다. (출처: OpenAI Help Center, 2026.03.15 업데이트)
왜 이런 구조인지 생각해보면 납득이 됩니다. 컴퓨터 사용 기능은 실행 환경(스크린 캡처 + 입력 실행 레이어)이 별도로 필요합니다. 이를 일반 ChatGPT 웹 UI에서 제공하려면 사용자 PC와의 연동이 필요한데, 보안·인프라 문제가 있습니다. 따라서 API 연동이나 Codex 환경에서만 실제 컴퓨터 제어가 가능합니다. 브라우저 기반 웹 자동화는 ChatGPT 도구 내 기능으로 일부 이용 가능하지만, 완전한 데스크탑 제어와는 다릅니다.
WebArena와 Online-Mind2Web — 브라우저 성능도 확인하세요
완전한 데스크탑 조작 외에도, 브라우저 기반 작업 벤치마크에서도 GPT-5.4는 높은 성능을 보입니다. WebArena-Verified에서 67.3%, Online-Mind2Web에서 92.8%를 기록했습니다. 특히 Online-Mind2Web에서는 이전 ChatGPT Atlas Agent Mode(70.9%)를 크게 앞섭니다. (출처: OpenAI 공식 발표, 2026.03.05)
1M 토큰의 함정 — 알고 보면 반대입니다
GPT-5.4의 또 다른 핵심 홍보 포인트는 최대 100만 토큰(1M Token) 컨텍스트 윈도우입니다. 전체 코드베이스, 수백 페이지 법률 문서를 한 번에 넣을 수 있다는 이야기죠. 그런데 많은 분들이 이 부분을 오해하고 있습니다. “GPT-5.4 쓰면 기본으로 100만 토큰까지 넣을 수 있겠구나”라고 생각하신다면, 실제 비용 구조를 보면 생각이 달라집니다.
💡 공식 문서가 밝힌 실제 구조 — 이 분석은 OpenAI 공식 릴리스노트와 가격 페이지를 교차 확인한 결과입니다.
API 기본 컨텍스트 윈도우: 272K 토큰
1M 토큰 확장: 실험적 기능으로 API에서 model_context_window와 model_auto_compact_token_limit 파라미터를 명시적으로 설정해야 활성화
⚠️ 272K 초과 시 입력 토큰 요금 2배 적용 (출처: OpenAI 공식 발표, 2026.03.05)
직접 계산해 보겠습니다. 독자 여러분도 따라해 보실 수 있습니다.
📊 시나리오: 500K 토큰 분량의 법률 계약서 분석 요청 1회
기본 요금 (0~272K): $2.50 / 1M tokens → 272K 토큰 × $2.50 = $0.68
초과 요금 (272K~500K, 2배 적용): 228K 토큰 × ($2.50 × 2) = $1.14
출력 토큰 (약 2K 가정): 2K × $15 = $0.03
합계: 약 $1.85 / 1회 요청
이것이 독자에게 의미하는 것은 이렇습니다. 표준 272K 이내 요청만 한다면 입력 $2.50/1M이지만, 1M 토큰 풀 컨텍스트를 쓰면 후반부 728K 토큰은 사실상 입력 $5.00/1M으로 과금됩니다. “100만 토큰 넣을 수 있다”는 말은 맞지만, “100만 토큰을 표준 가격으로 쓸 수 있다”는 의미가 아닙니다.
ChatGPT 플랜에서의 컨텍스트 윈도우는 더욱 제한됩니다. OpenAI 공식 Help Center에 따르면 GPT-5.4 Thinking 기준으로 Plus/Business 유저는 최대 256K(입력 128K + 출력 128K), Pro 유저는 최대 400K(입력 272K + 출력 128K)입니다. 1M 토큰은 현재 API의 실험적 기능입니다. (출처: OpenAI Help Center, 2026.03.15)
Pro vs Thinking — 많은 분들이 오해하는 부분
GPT-5.4는 ChatGPT 내에서 세 가지 티어로 제공됩니다. Auto(자동 전환), Instant(빠른 응답, GPT-5.3 Instant), Thinking(심층 추론, GPT-5.4 Thinking), Pro(최대 성능, GPT-5.4 Pro)입니다. 많은 분들이 “Pro가 무조건 Thinking보다 낫겠지”라고 생각하십니다. 그런데 공식 벤치마크를 보면 꼭 그렇지 않습니다.
| 벤치마크 | Thinking 5.4 | Pro 5.4 | 승자 |
|---|---|---|---|
| GDPval (44개 직종 지식업무) | 83.0% ✅ | 82.0% | Thinking |
| ARC-AGI-2 (추상 추론) | 73.3% | 83.3% ✅ | Pro |
| BrowseComp (멀티소스 리서치) | 82.7% | 89.3% ✅ | Pro |
| OSWorld (컴퓨터 조작) | 75.0% ✅ | 미발표 | Thinking |
(출처: OpenAI 공식 발표, 2026.03.05)
표에서 보이듯, 일반 지식 업무(GDPval)에서는 오히려 Thinking이 Pro보다 높은 점수를 기록합니다. Pro가 앞서는 영역은 극도로 어려운 추상 추론(ARC-AGI-2)과 대규모 멀티소스 리서치(BrowseComp)입니다. 대부분의 일반적인 업무라면 Thinking($20/월 Plus)으로도 충분하다는 의미입니다.
Pro($200/월)에서 쓸 수 없는 기능들
이 부분은 특히 주의가 필요합니다. GPT-5.4 Pro는 최대 성능을 제공하지만, Apps·Memory·Canvas·이미지 생성 기능이 비활성화됩니다. 이유는 Pro 모드가 매우 높은 컴퓨팅을 집중 투입하기 때문입니다. OpenAI 공식 Help Center는 명확히 이를 명시하고 있습니다. (출처: OpenAI Help Center, 2026.03.15) 월 200달러를 내고 Pro를 쓰는데 메모리나 Canvas를 못 쓴다면, 작업 유형에 따라 오히려 Thinking이 더 실용적인 선택일 수 있습니다.
요금제별 실제 비용 계산 — 직접 따라해 보세요
공식 가격표만 보면 감이 안 옵니다. 실제 에이전트 워크플로우 시나리오를 통해 월간 비용을 직접 계산해 보겠습니다. API 기준입니다.
📊 시나리오: 하루 50건 에이전트 태스크 (평균 입력 8K 토큰 + 출력 1.5K 토큰)
건당 비용 계산식:
$$\text{Thinking 건당} = \frac{8{,}000 \times \$2.50}{1{,}000{,}000} + \frac{1{,}500 \times \$15}{1{,}000{,}000} = \$0.02 + \$0.0225 = \$0.0425$$
→ 결과 해석: 하루 50건 기준 $2.12, 월 30일 기준 약 $63의 API 비용이 발생합니다.
$$\text{Pro 건당} = \frac{8{,}000 \times \$30}{1{,}000{,}000} + \frac{1{,}500 \times \$180}{1{,}000{,}000} = \$0.24 + \$0.27 = \$0.51$$
→ 결과 해석: 같은 조건에서 Pro를 쓰면 월 약 $765로, Thinking 대비 12배 비용이 발생합니다.
$$\text{하이브리드(Pro 10\% + Thinking 90\%)} = 0.1 \times \$0.51 + 0.9 \times \$0.0425 = \$0.051 + \$0.038 = \$0.089$$
→ 결과 해석: 복잡한 태스크에만 Pro를 쓰는 하이브리드 전략이면 월 약 $134로 비용을 절감할 수 있습니다.
여기에 Tool Search 기능을 활용하면 MCP Atlas 기준 동일 정확도에서 토큰 사용량이 47% 절감됩니다. (출처: OpenAI 공식 발표, 2026.03.05) 이 경우 Thinking 기반 월 비용은 $63에서 약 $33까지 줄어들 수 있습니다. 단, 47% 절감은 MCP Atlas 250개 태스크 기준 수치로, 실제 워크플로우마다 다를 수 있으니 반드시 직접 측정해 보시길 권장합니다.
GPT-5.4 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro — 공식 가격 비교
2026년 3월 현재 주요 AI 서비스 공식 API 가격을 비교합니다. 단순 가격만으로는 선택이 어려운 이유도 함께 살펴보겠습니다.
| 모델 | 입력 /1M | 출력 /1M | 캐시 입력 |
|---|---|---|---|
| GPT-5.4 (Thinking) | $2.50 | $15.00 | $0.25 |
| GPT-5.4 Pro | $30.00 | $180.00 | 미발표 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 별도 확인 |
| Gemini 3.1 Pro Preview | $1.00* | $6.00* | 200K 이하 기준 |
*Gemini 3.1 Pro Preview: 200K 초과 시 입력 $2.00/1M, 출력 $9.00/1M 적용. (출처: 공식 가격 페이지 기준)
💡 가격 이면의 핵심 차이 — 이 분석은 공식 벤치마크와 실제 기능 제약을 교차 분석한 결과입니다:
Q&A — 자주 묻는 질문 5개
마치며 — 총평
GPT-5.4는 “또 새 모델이 나왔네”로 넘기기엔 실질적인 변화가 있는 업데이트입니다. 컴퓨터 직접 조작, 추론과 코딩의 단일 모델 통합, GDPval 83%라는 전문가 업무 대체 지표는 숫자 이상의 의미를 갖습니다.
하지만 이 글에서 계속 강조했듯, 홍보 문구와 실제 접근 조건 사이에는 간극이 있습니다. 컴퓨터 사용은 API에서만 동작하고, 1M 토큰은 기본값이 아니며 초과 구간에서 비용이 2배로 뜁니다. Pro가 Thinking보다 비싸지만, 일반 업무 벤치마크에서는 오히려 Thinking이 앞서는 경우도 있습니다. Pro를 쓰면 메모리와 Canvas를 포기해야 합니다.
결국 GPT-5.4를 잘 쓰는 방법은 간단합니다. 내 업무가 일반 지식·코딩 중심이라면 Plus($20/월)의 Thinking으로 충분합니다. 긴 문서 분석, 대규모 리서치, 프론티어급 추론이 필요하다면 API나 Pro를 검토하되, 272K 토큰 초과 구간의 비용 구조를 반드시 사전에 계산해보세요. 무조건 “가장 강한 모델”이 아니라, “내 작업에 맞는 모델”을 선택하는 것이 2026년 AI 활용의 핵심입니다.
본 포스팅 참고 자료
⚠️ 면책 조항: 본 포스팅은 2026년 3월 15일 기준 OpenAI 공식 자료를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 정확한 요금 및 기능은 OpenAI 공식 사이트에서 반드시 직접 확인하시기 바랍니다. 본 포스팅의 비용 계산 예시는 독자의 이해를 돕기 위한 추정치이며, 실제 과금은 워크플로우와 사용 조건에 따라 다를 수 있습니다.


댓글 남기기