OpenAI 공식 발표 기반
GPT-5.4 Computer Use, 인간을 넘었다고요? 이 조건 먼저 보세요
OSWorld 벤치마크에서 인간(72.4%)을 넘은 75%라는 숫자가 연일 화제입니다. 그런데 이 숫자가 실제로 어떤 조건에서 나왔는지, 그리고 ChatGPT 구독자가 이 기능을 지금 당장 쓸 수 있는지는 대부분의 소개글에서 빠져 있습니다. 공식 문서와 실사용 데이터를 교차해서 직접 확인해봤습니다.
GPT-5.4가 정확히 뭔데 이렇게 난리인가요
OpenAI가 2026년 3월 5일 공식 출시한 GPT-5.4는 기존 GPT-5.3-Codex의 코딩 능력과 GPT-5.2의 범용 추론 능력을 하나의 모델로 합친 버전입니다. 버전 번호가 5.4로 뛴 건 그냥 숫자 정리가 아니라, 사실상 별개였던 두 모델 계열을 처음으로 통합했다는 의미를 담고 있습니다.
이번 버전의 핵심은 크게 세 가지입니다. 첫째는 네이티브 컴퓨터 사용(Computer Use) — AI가 마우스를 움직이고 UI를 직접 클릭해서 작업을 완수하는 기능. 둘째는 1M(100만) 토큰 컨텍스트 창. 셋째는 도구 검색(Tool Search) — 수만 개의 MCP 도구 중에서 필요한 것만 그때그때 불러오는 방식입니다.
ChatGPT에서는 GPT-5.4 Thinking이라는 이름으로 Plus, Team, Pro 사용자에게 오늘(3월 5일)부터 순차 적용 중이고, GPT-5.2 Thinking은 2026년 6월 5일까지만 유지됩니다. (출처: OpenAI 공식 블로그, 2026.03.05)
💡 공식 발표문에 나온 모델 버전 흐름을 실제 출시 순서와 같이 놓고 보니, GPT-5.3 Thinking이라는 모델은 공식적으로 존재하지 않습니다. 5.3은 Instant와 Codex 특화 버전만 출시됐고, 범용 추론 모델은 5.2에서 곧바로 5.4로 건너뛰었습니다. (출처: OpenAI 공식 블로그, 2026.03.05)
인간을 “넘었다”는 수치, 실제로 어떤 조건인가요
가장 많이 퍼진 수치가 바로 “OSWorld-Verified 75.0%, 인간 평균 72.4% 초과”입니다. AI가 처음으로 인간보다 컴퓨터를 잘 다룬다는 이 숫자, 먼저 벤치마크 조건을 들여다볼 필요가 있습니다.
OSWorld-Verified는 가상 데스크톱 환경에서 스크린샷과 키보드·마우스 명령으로 실제 작업을 수행하는 능력을 측정합니다. “잘 통제된 연구 환경”이라는 게 핵심입니다 — 실제 업무 PC에는 없는 각종 보안 소프트웨어, 회사 방화벽, SSO 로그인, 예측 불가한 팝업 등이 없습니다. (출처: OpenAI 공식 블로그 introducing-gpt-5-4)
| 벤치마크 | GPT-5.4 | GPT-5.2 | 인간 기준 |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 47.3% | 72.4% |
| WebArena-Verified | 67.3% | 65.4% | — |
| GDPval (직업 44종 비교) | 83.0% | 70.9% | 전문가 대비 |
| 투자은행 스프레드시트 | 87.3% | 68.4% | — |
(출처: OpenAI introducing-gpt-5-4, 2026.03.05)
75%라는 숫자 자체는 사실입니다. 하지만 뒤집어 보면 25%는 여전히 실패합니다. 4건 중 1건은 오작동 또는 중단이라는 뜻입니다. 그래서 OpenAI 공식 발표문 자체도 “프로덕션 자율 자동화로 바로 쓰기에는 폴백(fallback) 로직이 필요하다”고 명시하고 있습니다. (출처: byteiota.com 분석, 2026.03.31)
Computer Use, 지금 당장 내가 쓸 수 있을까요
솔직히 말하면, ChatGPT 구독자는 지금 당장 Computer Use를 직접 실행할 수 없습니다. 이 부분이 대부분의 소개글에서 흐릿하게 처리된 핵심입니다.
공식 발표문을 직접 보면 이렇게 나옵니다: “In the API, GPT-5.4 is the first general-purpose model we’ve released with native, state-of-the-art computer-use capabilities.” — 즉, Computer Use는 API와 Codex 환경에서만 네이티브로 지원됩니다. ChatGPT 채팅 화면에서 “AI야 내 컴퓨터를 대신 조작해줘”라고 입력해도 아무것도 안 됩니다. (출처: OpenAI introducing-gpt-5-4, 2026.03.05)
💡 API 문서와 ChatGPT 출시 공지를 같이 놓고 보면 이 구분이 선명해집니다. ChatGPT Plus·Pro 사용자는 GPT-5.4 Thinking의 추론·코딩 개선 혜택은 받지만, AI가 실제로 마우스를 움직이는 Computer Use 기능은 개발자 API 또는 Codex를 통해서만 접근 가능합니다. (출처: OpenAI introducing-gpt-5-4, 2026.03.05)
📌 접근 방법별 정리
코딩 개선 ✅
Computer Use ❌
코딩 개선 ✅
Computer Use ✅
코딩 개선 ✅
Computer Use ✅ + /fast 1.5× 속도
Computer Use를 직접 테스트해보려면 OpenAI API 키를 발급받아 `computer` 도구 파라미터와 함께 요청을 보내야 합니다. API 공식 문서에는 updated `computer` tool 항목을 확인하라고 나와 있습니다. (출처: OpenAI 개발자 문서 developers.openai.com)
1M 토큰이지만 272K를 넘으면 요금이 달라집니다
OpenAI는 GPT-5.4에 100만 토큰 컨텍스트 창을 탑재했다고 크게 홍보합니다. 그런데 공식 API 문서에는 작지 않은 주석이 달려 있습니다.
272,000 토큰을 초과하면 입력 가격이 2배, 출력 가격이 1.5배가 됩니다. 초과분만이 아니라 해당 세션 전체 토큰에 적용됩니다. (출처: OpenAI API 문서 developers.openai.com/api/docs/models/gpt-5.4)
직접 계산해보면 이렇습니다:
- 입력 250K 토큰 → $0.625 (기본 $2.50/M 적용)
- 입력 300K 토큰 → $1.50 (272K 초과, 전체에 $5.00/M 적용)
- 토큰 20% 늘었는데 비용은 140% 증가
- 입력 922K + 출력 128K 풀 컨텍스트 → 요청당 약 $7.49
(출처: byteiota.com 분석, 2026.03.31; OpenAI API 문서)
실제 분석 데이터를 보면 127K~272K 구간이 정확도 97% 수준에서 과금 페널티 없이 쓸 수 있는 현실적인 구간입니다. (출처: Apiyi.com 분석, 2026.03) 1M을 마케팅하지만, 경제적 최적 구간은 훨씬 좁습니다.
Codex에서 1M 컨텍스트를 쓰려면 `model_context_window` 파라미터를 별도 설정해야 하고, 역시 272K 초과분에 대해 2× 요율이 적용됩니다. OpenAI가 공식적으로 “실험적 지원”이라고 표현한 부분입니다. (출처: OpenAI introducing-gpt-5-4, 2026.03.05)
벤치마크 1위인데 상식 문제에서 틀린 이유
GPT-5.4 Thinking의 수치를 보면 화려합니다. GDPval 83%, 투자은행 스프레드시트 87.3%, BrowseComp 82.7%… 그런데 실제 테스트 결과에서 뜻밖의 장면이 포착됐습니다.
독립적인 블라인드 테스트를 진행한 Nate’s Newsletter(2026.03.07)에 따르면, “세차장이 100m 떨어져 있다. 걷거나 운전해서 가야 하나?”라는 질문에 GPT-5.4 Thinking은 장황한 에세이를 쓰며 “걷는 게 낫다”고 답했습니다. 반면 Claude Opus 4.6과 Gemini 3.1 Pro는 각각 한 문장으로 정확하게 답했습니다 — “운전해야죠. 세차장에 차를 가져가야 하니까요.”
💡 이 테스트 결과와 공식 벤치마크를 함께 놓고 보면 패턴이 보입니다. GPT-5.4의 벤치마크 설계 자체가 “전문가 수준의 구조화된 업무”에 최적화되어 있습니다. GDPval은 44개 직종의 “잘 명세된(well-specified) 지식 업무”를 측정합니다. 맥락과 의도 파악이 필요한 일상 추론은 별도 벤치마크가 없습니다. (출처: Nate’s Newsletter, 2026.03.07; OpenAI introducing-gpt-5-4)
솔직히 말하면 이건 GPT-5.4만의 문제는 아닙니다. 모든 대형 언어 모델이 비슷한 불일치를 보입니다. 다만 “전문가를 83% 대체한다”는 마케팅 문구와 함께 쓰일 때는, 어떤 작업의 83%인지가 중요합니다. 틀에 맞는 구조화된 업무가 강하고, 느슨한 일상 추론에서 가끔 예상 밖의 실수가 나올 수 있다는 점은 실무 배포 전에 반드시 테스트가 필요한 이유입니다.
Claude·Gemini와 비교해서 선택하는 기준
세 모델의 차이를 요약하면 이렇습니다. GPT-5.4는 도구 호출 정확도와 컴퓨터 직접 제어가 강합니다. Claude Opus 4.6은 대규모 코드베이스 분석과 장기 컨텍스트 유지에서 앞섭니다. Gemini 3.1 Pro는 추상 추론과 멀티모달, 가격 경쟁력에서 유리합니다.
| 항목 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| Computer Use | ✅ 네이티브 | ❌ | ❌ |
| SWE-Bench 코딩 | 57.7% | 80.8% | — |
| ARC-AGI-2 추상추론 | 73.3% | 68.8% | 77.1% |
| 1M 컨텍스트 정확도 | 272K+ 페널티 | 76% (MRCR v2) | 26.3% (포인트와이즈) |
| API 기본 입력 단가 | $2.50/M | $5.00/M | $2.00/M |
| 도구 호출(Toolathlon) | 54.6% | 약 48% | — |
(출처: OpenAI introducing-gpt-5-4, 2026.03.05; blog.naver.com/simula 분석, 2026.03.16)
한마디로 정리하면, 짧은 컨텍스트에서 도구와 컴퓨터를 다루는 자동화는 GPT-5.4, 대규모 코드베이스 장기 에이전트는 Claude Opus 4.6, 추론 집약적 연구·비용 최적화는 Gemini 3.1 Pro가 현재 실무에서 강점을 가집니다. 상황에 따라 혼용하는 전략이 단일 모델 고집보다 현실적입니다.
자주 묻는 질문 5가지
마치며 — 75%라는 숫자가 말하지 않는 것
GPT-5.4는 실제로 강한 모델입니다. 컴퓨터 직접 제어, 도구 생태계 효율화, 할루시네이션 감소(응답 오류 18% 개선) — 이 중 어느 하나도 가볍게 볼 수 없습니다. (출처: OpenAI introducing-gpt-5-4, 2026.03.05)
다만 주의할 점이 있습니다. “인간을 넘었다”는 숫자는 잘 통제된 벤치마크 환경에서 나온 것이고, 실제 25%는 여전히 실패합니다. Computer Use는 ChatGPT 구독자가 아닌 API·Codex 개발자를 위한 기능입니다. 그리고 1M 토큰을 쓰려면 272K 이상부터 요금이 두 배로 뜁니다.
개인적으로는 이번 GPT-5.4가 “AI가 사람처럼 컴퓨터를 쓴다”는 에이전트 자동화 시대의 실질적인 시작점이라고 봅니다. 하지만 폴백 로직 없이 자율로 돌리기엔 아직 한 칸 부족합니다. 지금 단계에서는 AI가 드래프트를 만들고 사람이 검토하는 구조가 여전히 안전합니다.
본 포스팅 참고 자료
본 포스팅은 2026년 4월 2일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI의 요금제·한도·모델 명칭은 업데이트에 따라 달라질 수 있으므로 최신 정보는 공식 문서에서 확인하세요.











댓글 남기기