GPT-5.4 기준
IT/AI
GPT-5.4 Computer Use, 수치 4개로 직접 확인했습니다
ChatGPT 유료 플랜에서 Computer Use가 바로 켜지는지, 1M 토큰은 정말 쓸 수 있는지, 보안은 괜찮은지 — 공식 발표문과 시스템 카드를 직접 확인했습니다.
결론부터: GPT-5.4 Computer Use가 뭔지 한 줄로
(출처: OpenAI 공식 블로그, introducing-gpt-5-4, 2026.03.05)
그런데 GPT-5.4 Computer Use를 “ChatGPT Plus 결제하면 쓸 수 있는 기능”으로 소개하는 글이 벌써 몇 개 나오고 있습니다. 직접 공식 문서를 확인해보니 이건 반쪽짜리 설명입니다. 지금부터 공식 수치와 함께 설명하겠습니다.
OSWorld 75%의 진짜 의미 — 인간 성과 72.4%와 비교
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
75% vs 72.4%라는 수치는 분명히 놀랍습니다. 그런데 OSWorld는 단일 GPU 환경, 사전에 정의된 작업 흐름에서 테스트됩니다. 실제 업무 환경처럼 “여러 앱이 동시에 열려 있고, 알림 창이 튀어나오고, 로그인 세션이 만료된” 상황을 반영하지 않습니다. GPT-5.4 스스로도 시스템 카드에서 “벤치마크는 실 환경에서의 하한값”이라고 표현했습니다.
WebArena-Verified에서는 67.3%를 기록했는데, 이 수치가 현실적으로 더 의미 있습니다. 브라우저 안에서 DOM·스크린샷 두 방식을 동시에 쓴 결과이고, 실제 웹 기반 업무 자동화에 더 가까운 환경입니다. 그래도 67%면 3번 중 1번은 실패한다는 뜻입니다. 중요한 작업에 그냥 돌리기는 아직 이릅니다.
반면 GPT-5.2 대비 개선폭은 뚜렷합니다. GPT-5.2가 OSWorld에서 47.3%였으니, 이번 버전에서 약 28%p 올라갔습니다. 단순 업그레이드가 아니라 구조 자체가 바뀐 수준입니다.
| 모델 | OSWorld-Verified | WebArena-Verified | Online-Mind2Web |
|---|---|---|---|
| GPT-5.4 | 75.0% | 67.3% | 92.8% |
| GPT-5.3-Codex | 74.0% | — | — |
| GPT-5.2 | 47.3% | 65.4% | — |
| 인간 기준 | 72.4% | — | — |
(출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)
ChatGPT에서 바로 켜지지 않는 이유
(출처: OpenAI 공식 블로그, 2026.03.05)
💡 공식 문서의 구분 방식을 실제 요금제와 대입해보니 이 부분이 보였습니다
ChatGPT에서 GPT-5.4 Thinking을 쓰면 추론 성능 개선, 중간 조정(mid-response steering), 심층 웹 검색 강화는 바로 적용됩니다. 하지만 컴퓨터를 실제 조작하는 computer 도구는 API에서만 접근 가능합니다. 즉, ChatGPT에서 “GPT-5.4가 내 컴퓨터를 제어해준다”는 말은 현재 기준으로 맞지 않습니다.
이 구분을 몰라서 생기는 혼란이 있습니다. “GPT-5.4 Thinking으로 바꿨는데 왜 컴퓨터 제어가 안 되지?”라는 질문이 실제로 Reddit 스레드에서 여러 번 나왔습니다. GPT-5.4 Thinking은 추론 성능이 강해진 모델 이름이고, Computer Use는 그 위에 추가로 API를 통해 얹는 기능입니다. 이 둘을 같은 것으로 보면 안 됩니다.
API에서도 준비가 필요합니다. 개발자 문서에서 computer 도구를 설정하고, 스크린샷 입력 방식이나 마우스·키보드 명령 형식을 직접 구성해야 합니다. 클릭 몇 번으로 켜지는 기능이 아닙니다.
1M 토큰이 공짜가 아닌 이유
(출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)
API 기본 요금으로 계산해보면, 입력 기준 $2.50/M 토큰이 272K 초과 시 $5.00/M 토큰이 됩니다. 긴 코드베이스나 수백 페이지 문서를 한 번에 던질 때 비용이 급격히 올라갑니다. 1M 컨텍스트라서 넉넉하게 쓰면 된다고 생각하면 예상보다 2배 청구서가 날아옵니다.
📊 직접 계산해보면 이렇게 됩니다
500K 토큰짜리 입력을 보낸다고 가정하면:
- 처음 272K → $2.50/M × 0.272M = $0.68
- 나머지 228K → $5.00/M × 0.228M = $1.14
- 합계: $1.82 (272K 기준으로만 계산하면 $1.25였을 것)
272K를 넘기는 순간 동일한 토큰에 46% 더 냅니다.
또한 1M 컨텍스트는 현재 Codex에서 실험적 기능으로만 제공됩니다. ChatGPT에서는 GPT-5.4 Thinking의 컨텍스트 창이 GPT-5.2와 동일하게 유지됩니다. 공식 발표문이 “GPT-5.4 includes experimental support for the 1M context window”라고 표현한 것도 바로 이 이유입니다.
그리고 실제 성능 측면에서도 1M을 다 쓰는 게 능사가 아닙니다. OpenAI의 MRCR 벤치마크를 보면 256K~512K 구간에서 정확도가 57.5%로 떨어지고, 512K~1M 구간에서는 36.6%까지 내려갑니다. 128K 이하 구간의 97%대 성능과 비교하면 급격한 낙차입니다. 컨텍스트를 길게 쌓는다고 성능이 비례해서 좋아지지 않습니다.
(출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05 — MRCR v2 8-needle 벤치마크 수치)
프롬프트 인젝션, OpenAI도 인정한 미해결 문제
OpenAI GPT-5.4 시스템 카드를 보면 프롬프트 인젝션 평가 결과가 나옵니다. 이메일 커넥터 공격에 대한 방어는 GPT-5.2 대비 향상됐지만, 함수 셀 인젝션에서는 소폭 후퇴했습니다. 개선과 퇴보가 공존한다는 뜻입니다. OpenAI가 이 부분을 아직 “완전히 해결”했다고 표현하지 않은 이유입니다.
(출처: GPT-5.4 Thinking System Card, deploymentsafety.openai.com, 2026.03.05)
⚠️ 실사용에서 주의해야 할 시나리오
- AI가 외부 웹사이트를 방문하는 작업 (악성 사이트에서 지시 주입 가능)
- 이메일·문서를 열어 내용을 처리하는 작업 (숨겨진 명령 삽입 가능)
- 여러 탭·앱을 넘나들며 자동화하는 긴 작업 (중간 데이터에 인젝션 가능)
- 로그인 세션이 열린 상태로 AI가 실행되는 환경 (권한 탈취 가능)
OpenAI는 개발자가 confirmation policy를 커스텀 설정할 수 있도록 시스템을 바꿨습니다. 즉, 높은 위험 행동 전에 AI가 사용자에게 확인을 구하도록 설정할 수 있다는 뜻입니다. 하지만 기본값에서는 사용자가 이 설정을 직접 건드릴 수 없습니다. API 개발자 수준의 설정이고, 일반 사용자에게는 지금 이 옵션이 열리지 않습니다.
보안 등급 ‘High’ 지정이 실사용에 미치는 영향
OpenAI는 GPT-5.4를 자사 Preparedness Framework 기준 사이버보안 능력 ‘High’ 등급으로 분류했습니다. GPT-5.3-Codex와 같은 수준입니다. High 등급은 “기존 사이버 작전의 병목을 제거할 수 있는 능력”을 의미합니다. 모델이 강력해서 붙는 등급인데, 이게 실사용자에게 직접 영향을 미칩니다.
(출처: GPT-5.4 Thinking System Card, 2026.03.05)
💡 보안 등급과 실사용 거절이 연결되는 흐름을 짚으면 이렇습니다
High 등급에서는 Zero Data Retention(ZDR) 고객에 한해 고위험 요청에 비동기 차단이 적용됩니다. 분류기가 아직 정교하지 않아서 정상적인 보안 업무 요청도 막힐 수 있다고 OpenAI가 직접 밝혔습니다. 불필요한 거절을 줄이는 방향으로 계속 조정 중이라고 했지만, 이 부분은 이유가 공개되지 않은 상태에서 갑자기 요청이 막히는 경험으로 나타날 수 있습니다.
이건 특히 보안 관련 업무를 자동화하려는 개발자나 기업에 영향이 큽니다. 취약점 분석, 침투 테스트, 로그 분석 같은 작업이 High 등급 분류기에 걸릴 수 있습니다. OpenAI가 이 이유를 별도로 설명하지 않기 때문에, 막혔을 때 왜 막혔는지 파악하기 어렵습니다.
지금 GPT-5.4 Computer Use를 써야 하는 경우와 아닌 경우
솔직히 말하면, GPT-5.4 Computer Use는 지금 당장 일반 사용자에게 열린 기능이 아닙니다. API를 쓸 수 있고, 컴퓨터 제어 에이전트를 직접 구성할 의지가 있는 개발자나 팀이 대상입니다. “ChatGPT Plus 결제하면 GPT-5.4가 내 컴퓨터를 대신 해준다”는 건 현재 기준으로 가능하지 않습니다.
✅ 지금 바로 의미 있는 경우
- 반복적 웹 데이터 수집·처리 작업을 자동화하는 API 개발자
- 기존에 Playwright 스크립트로 브라우저 자동화하던 팀 — GPT-5.4가 코드 생성+실행을 동시에 처리
- 스프레드시트·프레젠테이션 대규모 생성이 필요한 ChatGPT Plus 이상 플랜 업무 사용자 (추론 성능 개선 혜택은 바로 적용)
- Codex에서 긴 코드베이스를 다루는 작업 — 단, 272K 토큰 이내에서
❌ 지금 기대하면 실망하는 경우
- ChatGPT 화면에서 AI가 직접 내 앱을 열고 실행해주기를 기대하는 경우
- 1M 토큰을 저렴하게 쓰려는 경우 — 272K 초과 시 2배 요금
- 민감한 자격증명이 담긴 환경에서 바로 에이전트 실행 — 프롬프트 인젝션 위험
- 보안 업무 자동화를 API 수준 없이 시도하는 경우 — 차단될 수 있음
Q&A
마치며
그런데 지금 당장 써볼 수 있는 범위는 생각보다 좁습니다. ChatGPT에서 Computer Use가 열리지 않고, 1M 토큰은 272K 초과 시 2배 요금이며, 프롬프트 인젝션은 아직 해결 중입니다. 이 세 가지를 모르면 기대와 현실 사이에서 실망하게 됩니다.
개인적으로는 ChatGPT에서 Computer Use가 정식 지원되고 프롬프트 인젝션 방어가 실질적으로 강화되는 시점을 기다리는 게 맞다고 봅니다. API를 직접 다루는 분들은 지금도 충분히 시작해볼 수 있습니다. 단, 처음엔 반드시 sandbox 환경에서, 그리고 실 자격증명이 없는 환경에서 테스트하는 걸 권장합니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 내용은 2026년 3월 22일 기준이며, OpenAI 공식 문서 확인을 항상 권장합니다.

댓글 남기기