GPT-5.4 Computer Use,
ChatGPT에서 안 되는 이유
GPT-5.4가 나왔고, OpenAI는 “컴퓨터를 인간보다 더 잘 쓴다”고 했습니다. OSWorld-Verified 벤치마크 75.0%, 인간 기준선 72.4%를 넘는 성적표도 공개했습니다. 그런데 막상 ChatGPT Plus에서 써보려고 하면 이 기능을 찾을 수가 없습니다. 공식 문서를 직접 확인했더니 이유가 딱 하나였습니다.
ChatGPT에서 컴퓨터 조작이 안 되는 구조적 이유
OpenAI 공식 발표문에 GPT-5.4 Computer Use가 어디서 작동하는지 딱 이렇게 나와 있습니다.
출처: OpenAI 공식 발표문, 2026.03.05
Codex와 API에서만 네이티브 Computer Use를 지원합니다. ChatGPT 웹 인터페이스에서는 해당이 없습니다. 솔직히 말하면, GPT-5.4를 소개하는 보도자료 대부분이 이 구분을 흐릿하게 다뤘습니다. 같은 모델 이름이 달려 있으니 당연히 ChatGPT에서도 마우스 클릭이 될 거라고 생각하기 쉬운데, 실제로는 그렇지 않습니다.
구조를 정리하면 이렇습니다. ChatGPT Plus·Go·Pro에서 고를 수 있는 GPT-5.4 Thinking은 추론 모델입니다. 문서 분석, 코드 작성, 슬라이드 초안 작성 같은 작업을 잘 합니다. 반면 Computer Use는 스크린샷을 받아 마우스 좌표를 결정하고 키보드 입력을 실행하는 에이전트 루프입니다. 이 루프를 실행할 하네스(harness)가 ChatGPT 채팅창에는 없습니다.
GPT-5.4 Thinking과 Computer Use는 다른 제품입니다
같은 이름을 달고 있어서 헷갈리는 게 당연합니다. OpenAI 헬프센터 문서(2026.03.05 기준)를 보면, ChatGPT에서 GPT-5.4 Thinking이 지원하는 툴 목록이 명시돼 있습니다.
- 웹 검색 ✅
- 데이터 분석 ✅
- 이미지 분석 ✅
- 파일 분석 ✅
- 캔버스 ✅
- 이미지 생성 ✅
- 메모리 ✅
- 커스텀 인스트럭션 ✅
목록 어디에도 “컴퓨터 제어” 항목이 없습니다. 이는 빠진 게 아니라, 처음부터 ChatGPT 인터페이스 설계 범위 밖이기 때문입니다. Computer Use를 쓰려면 개발자가 직접 환경을 구성해야 합니다. Playwright나 Selenium으로 브라우저를 띄우고, 스크린샷을 캡처하고, API로 행동 명령을 받아 실행하는 루프를 코드로 짜야 합니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
OpenAI는 GPT-5.4를 “ChatGPT, API, Codex에 동시 출시”라고 했습니다. 같은 모델이 세 군데에 올라갔다는 말인데, 각 플랫폼에서 쓸 수 있는 기능이 다릅니다. ‘Computer Use’라는 기능 자체는 API와 Codex에서만 활성화됩니다. ChatGPT에서 GPT-5.4를 골랐다고 해서 자동으로 컴퓨터를 조작하게 되는 게 아닙니다.
1M 토큰 컨텍스트, 실제로 쓸 수 있는 조건
발표에서 강조된 또 하나가 1M 토큰 컨텍스트 윈도우입니다. 1년치 이메일을 전부 붙여 넣고 질문할 수 있다는 설명이 따라붙었습니다. 그런데 이것도 조건이 있습니다.
OpenAI 공식 발표문에는 이렇게 나와 있습니다.
출처: OpenAI 공식 발표문, 2026.03.05
1M 토큰은 Codex 한정, 현재 실험적 지원입니다. 그리고 272K를 넘는 구간부터는 사용 한도가 2배로 차감됩니다. ChatGPT에서 GPT-5.4 Thinking을 쓰면 컨텍스트 윈도우는 이렇게 고정됩니다.
1M 토큰은 Plus나 Pro 구독으로 자동으로 열리는 게 아닙니다. 이 부분이 발표 직후 한국어 블로그에서 제대로 다뤄지지 않았습니다.
OSWorld 75%가 말하지 않는 것
GPT-5.4가 OSWorld-Verified 벤치마크에서 75.0%를 기록했고, 인간 베이스라인인 72.4%를 넘겼습니다. (출처: OpenAI 공식 발표문, 2026.03.05) 인간보다 컴퓨터를 더 잘 쓴다는 헤드라인이 쏟아졌습니다. 그런데 이 수치 뒤에 두 가지가 있습니다.
첫째, OSWorld는 통제된 데스크탑 환경에서 측정합니다. 화면 레이아웃이 고정돼 있고, 예상치 못한 팝업이 없으며, 소프트웨어 업데이트로 UI가 바뀌지 않습니다. 실제 업무 환경에서는 이 세 조건 중 하나라도 무너지면 성공률이 달라집니다. 독립적인 평가자인 Nate’s Newsletter가 진행한 6개 실전 태스크 블라인드 평가에서 GPT-5.4는 일부 항목에서 Claude Opus 4.6과 Gemini 3.1 Pro에 뒤졌습니다. (출처: natesnewsletter.substack.com, 2026.03.07)
💡 벤치마크 조건과 실서비스 조건을 나란히 두면 이런 gap이 생깁니다
OSWorld 75%는 격리된 가상환경 결과이고, 실제 Computer Use 루프는 개발자가 직접 구성한 하네스 위에서 돌아갑니다. 두 환경의 성공률이 같다는 보장이 없습니다. OpenAI 공식 문서도 “프로덕션 환경에서 실패율이 다를 수 있다”고 명시하지 않았지만, 실제 구현 가이드에서 재시도 로직과 격리 환경을 필수로 권장합니다.
둘째, “Clinejection” 보안 사고가 같은 주에 터졌습니다. 악의적인 깃허브 이슈 제목을 통해 AI 어시스턴트가 embedded 명령을 실행한 사건으로, 4,000대의 개발자 머신이 감염됐습니다. (출처: Towards AI, 2026.03.09) Computer Use가 강해질수록 프롬프트 인젝션 위험도 함께 커집니다. OpenAI 공식 개발 가이드는 “제3자 콘텐츠(웹페이지 내용, PDF, 이메일 등)를 신뢰받지 않은 입력으로 취급하라”고 명시합니다.
API에서 Computer Use를 쓰려면 얼마가 드나요
ChatGPT Plus 월정액($20)에는 Computer Use API 접근이 포함되지 않습니다. API는 별도 과금 구조입니다. OpenAI 공식 가격표(2026.03.05 기준)는 다음과 같습니다.
Computer Use 루프는 스크린샷을 주고받으면서 토큰을 꽤 씁니다. 한 번의 작업 완료에 수천~수만 토큰이 오갈 수 있고, 특히 고해상도 이미지(original detail 설정 권장)를 쓰면 이미지당 토큰 비용이 추가됩니다. gpt-5.4 기준으로 입력 $2.50, 출력 $15 구조입니다. 이미지 입력 비용은 이미지 크기에 따라 달라집니다. 단순 테스트 수준이라면 몇 달러 안에 해결되지만, 프로덕션 자동화 파이프라인이라면 사전에 토큰 사용량 추정이 필요합니다.
배치(Batch)·플렉스(Flex) 처리는 표준 API 단가의 50% 수준으로 제공됩니다. 비실시간 자동화라면 배치 모드가 비용 절감 수단이 될 수 있습니다. 반대로 우선처리(Priority processing)를 선택하면 표준의 2배입니다.
Claude, Gemini와 비교했을 때 진짜 차이
같은 주에 Nate’s Newsletter가 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro를 6개 실전 태스크로 블라인드 평가했습니다. 결론을 요약하면, GPT-5.4는 수치 모델링·파일 처리에서 앞섰고, 글쓰기 품질·제품 판단력에서 상대적으로 밀렸습니다.
특히 눈에 띄는 실패 사례가 있었습니다. “세탁기가 100미터 거리에 있다. 걸어갈까, 차로 갈까?”라는 질문에 GPT-5.4 Thinking이 틀렸습니다. 걸어가는 게 더 낫다는 긴 분석을 내놨는데, Claude와 Gemini는 “세탁기를 쓰려면 차를 가져가야 하니 당연히 차로 가야 한다”고 즉시 답했습니다. 벤치마크 점수와 일상적 상식 판단력 사이에 간극이 있다는 뜻입니다.
💡 GDPval 83%라는 수치를 실무에 어떻게 읽어야 할까요
GDPval은 미국 GDP 상위 9개 산업의 44개 직종에서 실제 업무 산출물을 평가합니다. GPT-5.4는 83.0%의 비교 비율로 산업 전문가를 앞서거나 동등했습니다. (출처: OpenAI 공식 발표문, 2026.03.05) 다만 이 테스트도 “잘 명세된 태스크(well-specified knowledge work)”가 전제입니다. 맥락이 모호하거나 불완전한 입력이 주어지면 결과가 달라질 수 있습니다. 83%를 “전문가 수준”으로 읽기 전에 이 전제 조건을 확인하는 편이 낫습니다.
Computer Use 측면에서는 GPT-5.4가 현재 가장 강한 범용 모델입니다. OSWorld 75.0% 대 GPT-5.2의 47.3%는 큰 차이입니다. 이 격차는 단순히 “조금 더 나은” 수준이 아니라, 기존 GPT-5.2로는 안정적으로 작동하지 않던 에이전트 파이프라인이 GPT-5.4에서 처음 실용화될 수 있다는 의미입니다.
Q&A 5가지
마치며
GPT-5.4는 실제로 인상적인 모델입니다. OSWorld 75.0%, GDPval 83.0%, 그리고 GPT-5.2 대비 33% 낮아진 사실 오류율. 수치만 보면 확실히 한 단계 넘은 느낌이 납니다.
다만 이 포스팅에서 계속 짚은 것처럼, 같은 이름이 붙어 있어도 어떤 경로로 접근하느냐에 따라 쓸 수 있는 기능이 완전히 달라집니다. Computer Use는 ChatGPT 채팅창에서 쓰는 기능이 아닙니다. 1M 토큰은 Codex 전용 실험 기능입니다. 이 두 가지를 모르면 발표 내용을 기대하며 ChatGPT를 켰다가 아무것도 달라지지 않아 당황하게 됩니다.
개인적으로는 GPT-5.4의 진짜 가치는 에이전트 파이프라인을 구성하는 개발자 쪽에 더 크게 있다고 봅니다. ChatGPT 사용자 입장에서는 Thinking 모델의 추론 품질과 도구 활용 능력이 향상된 것 자체가 체감됩니다. 그 둘을 혼동하지 않고 쓰면 됩니다.
본 포스팅 참고 자료
- OpenAI 공식 발표문 — Introducing GPT-5.4 (https://openai.com/index/introducing-gpt-5-4/)
- OpenAI 헬프센터 — GPT-5.3 and GPT-5.4 in ChatGPT (https://help.openai.com/en/articles/11909943)
- OpenAI 개발자 문서 — Computer use (https://developers.openai.com/api/docs/guides/tools-computer-use/)
- Nate’s Newsletter — 독립 블라인드 평가 (natesnewsletter.substack.com)
- Towards AI — The “Thinking” Feature in GPT-5.4 Is Actually a Warning Label (pub.towardsai.net)
본 포스팅은 2026년 3월 30일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI의 모델 업데이트·요금제·사용 한도는 공지 없이 바뀔 수 있으니 중요한 의사결정 전에 공식 문서를 직접 확인하세요.











댓글 남기기