GPT-5.4 Computer Use, 수치 4개로 직접 확인했습니다

Published on

in

GPT-5.4 Computer Use, 수치 4개로 직접 확인했습니다

2026.03.22 기준
GPT-5.4 기준
IT/AI

GPT-5.4 Computer Use, 수치 4개로 직접 확인했습니다

ChatGPT 유료 플랜에서 Computer Use가 바로 켜지는지, 1M 토큰은 정말 쓸 수 있는지, 보안은 괜찮은지 — 공식 발표문과 시스템 카드를 직접 확인했습니다.

75.0%
OSWorld 성공률
272K
기본 컨텍스트 한도
1M 초과 요금 배수
API전용
Computer Use 현재 지원 범위

결론부터: GPT-5.4 Computer Use가 뭔지 한 줄로

(출처: OpenAI 공식 블로그, introducing-gpt-5-4, 2026.03.05)

그런데 GPT-5.4 Computer Use를 “ChatGPT Plus 결제하면 쓸 수 있는 기능”으로 소개하는 글이 벌써 몇 개 나오고 있습니다. 직접 공식 문서를 확인해보니 이건 반쪽짜리 설명입니다. 지금부터 공식 수치와 함께 설명하겠습니다.

▲ 목차로 돌아가기

OSWorld 75%의 진짜 의미 — 인간 성과 72.4%와 비교

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

75% vs 72.4%라는 수치는 분명히 놀랍습니다. 그런데 OSWorld는 단일 GPU 환경, 사전에 정의된 작업 흐름에서 테스트됩니다. 실제 업무 환경처럼 “여러 앱이 동시에 열려 있고, 알림 창이 튀어나오고, 로그인 세션이 만료된” 상황을 반영하지 않습니다. GPT-5.4 스스로도 시스템 카드에서 “벤치마크는 실 환경에서의 하한값”이라고 표현했습니다.

WebArena-Verified에서는 67.3%를 기록했는데, 이 수치가 현실적으로 더 의미 있습니다. 브라우저 안에서 DOM·스크린샷 두 방식을 동시에 쓴 결과이고, 실제 웹 기반 업무 자동화에 더 가까운 환경입니다. 그래도 67%면 3번 중 1번은 실패한다는 뜻입니다. 중요한 작업에 그냥 돌리기는 아직 이릅니다.

반면 GPT-5.2 대비 개선폭은 뚜렷합니다. GPT-5.2가 OSWorld에서 47.3%였으니, 이번 버전에서 약 28%p 올라갔습니다. 단순 업그레이드가 아니라 구조 자체가 바뀐 수준입니다.

모델 OSWorld-Verified WebArena-Verified Online-Mind2Web
GPT-5.4 75.0% 67.3% 92.8%
GPT-5.3-Codex 74.0%
GPT-5.2 47.3% 65.4%
인간 기준 72.4%

(출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)

▲ 목차로 돌아가기

ChatGPT에서 바로 켜지지 않는 이유

(출처: OpenAI 공식 블로그, 2026.03.05)

💡 공식 문서의 구분 방식을 실제 요금제와 대입해보니 이 부분이 보였습니다

ChatGPT에서 GPT-5.4 Thinking을 쓰면 추론 성능 개선, 중간 조정(mid-response steering), 심층 웹 검색 강화는 바로 적용됩니다. 하지만 컴퓨터를 실제 조작하는 computer 도구는 API에서만 접근 가능합니다. 즉, ChatGPT에서 “GPT-5.4가 내 컴퓨터를 제어해준다”는 말은 현재 기준으로 맞지 않습니다.

이 구분을 몰라서 생기는 혼란이 있습니다. “GPT-5.4 Thinking으로 바꿨는데 왜 컴퓨터 제어가 안 되지?”라는 질문이 실제로 Reddit 스레드에서 여러 번 나왔습니다. GPT-5.4 Thinking은 추론 성능이 강해진 모델 이름이고, Computer Use는 그 위에 추가로 API를 통해 얹는 기능입니다. 이 둘을 같은 것으로 보면 안 됩니다.

API에서도 준비가 필요합니다. 개발자 문서에서 computer 도구를 설정하고, 스크린샷 입력 방식이나 마우스·키보드 명령 형식을 직접 구성해야 합니다. 클릭 몇 번으로 켜지는 기능이 아닙니다.

▲ 목차로 돌아가기

1M 토큰이 공짜가 아닌 이유

(출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)

API 기본 요금으로 계산해보면, 입력 기준 $2.50/M 토큰이 272K 초과 시 $5.00/M 토큰이 됩니다. 긴 코드베이스나 수백 페이지 문서를 한 번에 던질 때 비용이 급격히 올라갑니다. 1M 컨텍스트라서 넉넉하게 쓰면 된다고 생각하면 예상보다 2배 청구서가 날아옵니다.

📊 직접 계산해보면 이렇게 됩니다

500K 토큰짜리 입력을 보낸다고 가정하면:

  • 처음 272K → $2.50/M × 0.272M = $0.68
  • 나머지 228K → $5.00/M × 0.228M = $1.14
  • 합계: $1.82 (272K 기준으로만 계산하면 $1.25였을 것)

272K를 넘기는 순간 동일한 토큰에 46% 더 냅니다.

또한 1M 컨텍스트는 현재 Codex에서 실험적 기능으로만 제공됩니다. ChatGPT에서는 GPT-5.4 Thinking의 컨텍스트 창이 GPT-5.2와 동일하게 유지됩니다. 공식 발표문이 “GPT-5.4 includes experimental support for the 1M context window”라고 표현한 것도 바로 이 이유입니다.

그리고 실제 성능 측면에서도 1M을 다 쓰는 게 능사가 아닙니다. OpenAI의 MRCR 벤치마크를 보면 256K~512K 구간에서 정확도가 57.5%로 떨어지고, 512K~1M 구간에서는 36.6%까지 내려갑니다. 128K 이하 구간의 97%대 성능과 비교하면 급격한 낙차입니다. 컨텍스트를 길게 쌓는다고 성능이 비례해서 좋아지지 않습니다.
(출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05 — MRCR v2 8-needle 벤치마크 수치)

▲ 목차로 돌아가기

프롬프트 인젝션, OpenAI도 인정한 미해결 문제

OpenAI GPT-5.4 시스템 카드를 보면 프롬프트 인젝션 평가 결과가 나옵니다. 이메일 커넥터 공격에 대한 방어는 GPT-5.2 대비 향상됐지만, 함수 셀 인젝션에서는 소폭 후퇴했습니다. 개선과 퇴보가 공존한다는 뜻입니다. OpenAI가 이 부분을 아직 “완전히 해결”했다고 표현하지 않은 이유입니다.
(출처: GPT-5.4 Thinking System Card, deploymentsafety.openai.com, 2026.03.05)

⚠️ 실사용에서 주의해야 할 시나리오

  • AI가 외부 웹사이트를 방문하는 작업 (악성 사이트에서 지시 주입 가능)
  • 이메일·문서를 열어 내용을 처리하는 작업 (숨겨진 명령 삽입 가능)
  • 여러 탭·앱을 넘나들며 자동화하는 긴 작업 (중간 데이터에 인젝션 가능)
  • 로그인 세션이 열린 상태로 AI가 실행되는 환경 (권한 탈취 가능)

OpenAI는 개발자가 confirmation policy를 커스텀 설정할 수 있도록 시스템을 바꿨습니다. 즉, 높은 위험 행동 전에 AI가 사용자에게 확인을 구하도록 설정할 수 있다는 뜻입니다. 하지만 기본값에서는 사용자가 이 설정을 직접 건드릴 수 없습니다. API 개발자 수준의 설정이고, 일반 사용자에게는 지금 이 옵션이 열리지 않습니다.

▲ 목차로 돌아가기

보안 등급 ‘High’ 지정이 실사용에 미치는 영향

OpenAI는 GPT-5.4를 자사 Preparedness Framework 기준 사이버보안 능력 ‘High’ 등급으로 분류했습니다. GPT-5.3-Codex와 같은 수준입니다. High 등급은 “기존 사이버 작전의 병목을 제거할 수 있는 능력”을 의미합니다. 모델이 강력해서 붙는 등급인데, 이게 실사용자에게 직접 영향을 미칩니다.
(출처: GPT-5.4 Thinking System Card, 2026.03.05)

💡 보안 등급과 실사용 거절이 연결되는 흐름을 짚으면 이렇습니다

High 등급에서는 Zero Data Retention(ZDR) 고객에 한해 고위험 요청에 비동기 차단이 적용됩니다. 분류기가 아직 정교하지 않아서 정상적인 보안 업무 요청도 막힐 수 있다고 OpenAI가 직접 밝혔습니다. 불필요한 거절을 줄이는 방향으로 계속 조정 중이라고 했지만, 이 부분은 이유가 공개되지 않은 상태에서 갑자기 요청이 막히는 경험으로 나타날 수 있습니다.

이건 특히 보안 관련 업무를 자동화하려는 개발자나 기업에 영향이 큽니다. 취약점 분석, 침투 테스트, 로그 분석 같은 작업이 High 등급 분류기에 걸릴 수 있습니다. OpenAI가 이 이유를 별도로 설명하지 않기 때문에, 막혔을 때 왜 막혔는지 파악하기 어렵습니다.

▲ 목차로 돌아가기

지금 GPT-5.4 Computer Use를 써야 하는 경우와 아닌 경우

솔직히 말하면, GPT-5.4 Computer Use는 지금 당장 일반 사용자에게 열린 기능이 아닙니다. API를 쓸 수 있고, 컴퓨터 제어 에이전트를 직접 구성할 의지가 있는 개발자나 팀이 대상입니다. “ChatGPT Plus 결제하면 GPT-5.4가 내 컴퓨터를 대신 해준다”는 건 현재 기준으로 가능하지 않습니다.

✅ 지금 바로 의미 있는 경우

  • 반복적 웹 데이터 수집·처리 작업을 자동화하는 API 개발자
  • 기존에 Playwright 스크립트로 브라우저 자동화하던 팀 — GPT-5.4가 코드 생성+실행을 동시에 처리
  • 스프레드시트·프레젠테이션 대규모 생성이 필요한 ChatGPT Plus 이상 플랜 업무 사용자 (추론 성능 개선 혜택은 바로 적용)
  • Codex에서 긴 코드베이스를 다루는 작업 — 단, 272K 토큰 이내에서

❌ 지금 기대하면 실망하는 경우

  • ChatGPT 화면에서 AI가 직접 내 앱을 열고 실행해주기를 기대하는 경우
  • 1M 토큰을 저렴하게 쓰려는 경우 — 272K 초과 시 2배 요금
  • 민감한 자격증명이 담긴 환경에서 바로 에이전트 실행 — 프롬프트 인젝션 위험
  • 보안 업무 자동화를 API 수준 없이 시도하는 경우 — 차단될 수 있음

▲ 목차로 돌아가기

Q&A

Q1. GPT-5.4 Thinking과 GPT-5.4 Computer Use는 다른 건가요?
Q2. 1M 토큰 컨텍스트를 쓰면 항상 요금이 2배인가요?
272K 토큰 이하라면 기본 요금이 적용됩니다. 272K를 넘어가는 순간부터 초과분에 대해 입력 요금 2배, 출력 요금 1.5배가 붙습니다. 전체 입력이 270K라면 기본 요금 그대로입니다. 1M 컨텍스트는 Codex에서 실험적 기능으로 제공되고, ChatGPT에서는 기존과 동일한 컨텍스트 제한이 유지됩니다. (출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)
Q3. OSWorld 75%가 “인간보다 낫다”는 의미인가요?
OSWorld-Verified 벤치마크 기준으로는 GPT-5.4 75.0% vs. 인간 72.4%로 앞섭니다. 하지만 이 벤치마크는 사전 정의된 단일 작업 환경에서 측정됩니다. 실제 업무 환경(여러 앱 동시 실행, 예외 상황, 인증 만료 등)을 반영하지 않습니다. 벤치마크 수치를 실사용 능력과 1:1로 대입하면 과대평가가 됩니다.
Q4. GPT-5.2 Thinking을 지금도 쓸 수 있나요?
ChatGPT Plus, Team, Pro 사용자는 모델 선택창의 ‘레거시 모델’ 섹션에서 GPT-5.2 Thinking을 3개월간 계속 쓸 수 있습니다. 완전히 삭제되는 날짜는 2026년 6월 5일입니다. 그 이후에는 GPT-5.4 Thinking으로 강제 전환됩니다. (출처: OpenAI 공식 블로그, 2026.03.05)
Q5. GPT-5.4 Pro는 일반 GPT-5.4보다 얼마나 더 비싸고 얼마나 낫나요?
API 기준 GPT-5.4 Pro는 입력 $30/M 토큰, 출력 $180/M 토큰으로 GPT-5.4 기본 대비 12배 비쌉니다. 벤치마크 성능은 일부 항목에서 더 높지만, GDPval 기준으로는 82.0%로 GPT-5.4의 83.0%보다 오히려 낮습니다. 최고 복잡도 수학 문제(FrontierMath Tier 4: 38.0% vs 27.1%)나 ARC-AGI-2(83.3% vs 73.3%)에서 Pro가 앞섭니다. 일반 업무에서는 기본 GPT-5.4로 충분한 경우가 많습니다. (출처: OpenAI 공식 블로그, 2026.03.05)

▲ 목차로 돌아가기

마치며

그런데 지금 당장 써볼 수 있는 범위는 생각보다 좁습니다. ChatGPT에서 Computer Use가 열리지 않고, 1M 토큰은 272K 초과 시 2배 요금이며, 프롬프트 인젝션은 아직 해결 중입니다. 이 세 가지를 모르면 기대와 현실 사이에서 실망하게 됩니다.

개인적으로는 ChatGPT에서 Computer Use가 정식 지원되고 프롬프트 인젝션 방어가 실질적으로 강화되는 시점을 기다리는 게 맞다고 봅니다. API를 직접 다루는 분들은 지금도 충분히 시작해볼 수 있습니다. 단, 처음엔 반드시 sandbox 환경에서, 그리고 실 자격증명이 없는 환경에서 테스트하는 걸 권장합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Introducing GPT-5.4 (2026.03.05)
  2. OpenAI GPT-5.4 Thinking System Card (2026.03.05)
  3. DataCamp — GPT-5.4: Native Computer Use, 1M Context Window, Tool Search (2026.03.06)
  4. HelpNetSecurity — OpenAI’s GPT-5.4 doubles down on safety (2026.03.06)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 내용은 2026년 3월 22일 기준이며, OpenAI 공식 문서 확인을 항상 권장합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기