GPT-5.4 Computer Use, 직접 써봤는데 이게 막혔습니다

Published on

in

GPT-5.4 Computer Use, 직접 써봤는데 이게 막혔습니다

2026.03.05 공식 출시 기준 / GPT-5.4 (gpt-5.4)

GPT-5.4 Computer Use,
직접 써봤는데 이게 막혔습니다

AI가 인간보다 컴퓨터를 더 잘 쓴다는 이야기, 맞습니다. 그런데 일반 ChatGPT에서는 그 기능을 쓸 수 없습니다. 공식 문서를 직접 뜯어보니 이게 명확하게 나왔습니다.

75.0%
OSWorld-Verified 성공률
72.4%
인간 평균 성공률
API 전용
Computer Use 접근 경로
$2.50
입력 1M 토큰 기준

Computer Use, ChatGPT에서는 왜 안 보이는 걸까요?

GPT-5.4 출시 소식을 보고 ChatGPT를 열어서 “내 컴퓨터 대신 써줘”를 기대했다면, 아마 당황했을 겁니다. 아무것도 달라진 게 없거든요. 이유는 간단합니다. GPT-5.4의 Computer Use는 처음부터 API 전용으로 설계됐습니다.

OpenAI 공식 발표문에는 딱 이렇게 나와 있습니다. “In Codex and the API, GPT-5.4 is the first general-purpose model we’ve released with native, state-of-the-art computer-use capabilities.” — ChatGPT 앱이나 웹 인터페이스는 언급이 없습니다. (출처: OpenAI 공식 블로그, 2026.03.05)

💡 공식 발표문과 Help Center 문서를 나란히 놓고 보니 이런 구조가 보였습니다 — Computer Use는 ChatGPT가 아닌 API·Codex를 통해서만 쓸 수 있고, Plus·Pro 구독자가 모델 피커에서 ‘GPT-5.4 Thinking’을 선택하는 것은 이 기능과 별개입니다.

Reddit의 r/ChatGPT에서 “어디에 Computer Use 모드가 있느냐”는 질문이 폭발적으로 올라온 이유가 바로 이겁니다. OpenAI가 마케팅 문구에서 “ChatGPT, API, Codex” 전체를 묶어 말했지만, 실제 Computer Use 기능의 접근 경로는 API와 Codex뿐입니다.

정리하면, 일반 ChatGPT에서 ‘Thinking’ 모드를 쓰는 것은 추론 능력을 쓰는 것이고, Computer Use는 스크린샷을 찍고 마우스·키보드 명령을 내리는 에이전트 기능으로 완전히 다른 레이어입니다.

▲ 목차로 돌아가기

OSWorld 75% — AI가 인간 성능을 실제로 넘겼습니다

GPT-5.4 Computer Use의 가장 충격적인 수치는 OSWorld-Verified 75.0%입니다. 인간 평균이 72.4%인데, AI가 처음으로 그 숫자를 넘었습니다. (출처: OpenAI 공식 블로그 Introducing GPT-5.4, 2026.03.05) 데스크톱 환경에서 AI가 사람보다 평균적으로 더 정확하게 작업을 완수한다는 뜻입니다.

벤치마크 GPT-5.4 GPT-5.2 인간 기준
OSWorld-Verified 75.0% 47.3% 72.4%
WebArena-Verified 67.3% 65.4%
Online-Mind2Web 92.8%
GDPval (44개 직종) 83.0% 70.9%

※ 출처: OpenAI 공식 블로그 “Introducing GPT-5.4” (2026.03.05)

OSWorld는 실제 데스크톱 앱에서 스크린샷 + 마우스/키보드 조합으로 작업을 완수하는 벤치마크입니다. GPT-5.2가 47.3%였던 것에 비해 GPT-5.4는 한 번에 75.0%로 뛰었습니다. 전작 대비 28%포인트 상승이고, 인간 평균(72.4%)을 2.6%포인트 앞서는 수치입니다.

단, 이 벤치마크가 “모든 실제 업무를 AI가 대신한다”는 의미는 아닙니다. OSWorld-Verified는 정해진 환경의 정해진 작업 기준이고, 실제 기업 환경에서의 비정형 작업은 다릅니다. OpenAI 공식 문서에서도 이 기능이 “첫 세대 구현”임을 명시합니다.

▲ 목차로 돌아가기

Computer Use가 실제로 동작하는 방식

구조를 이해하면 왜 API 전용인지가 바로 납득됩니다. Computer Use는 대화형 인터페이스가 아닙니다. 루프(loop) 기반으로 동작합니다.

📌 Computer Use 작동 루프 (OpenAI 공식 문서 기준)

  1. 모델이 현재 화면의 스크린샷을 수신
  2. 다음 동작(클릭·입력·스크롤 등)을 결정
  3. API를 통해 해당 동작을 실행
  4. 새 스크린샷으로 결과 확인 → 1번으로 반복

이 루프 자체가 “서버에서 화면을 보고 명령을 내리는” 구조라서, ChatGPT 웹 인터페이스로 구현할 수 없습니다. 개발자가 가상 환경을 직접 구성하고, API의 computer 툴을 호출해야 합니다. (출처: OpenAI API Docs — developers.openai.com/api/docs/guides/latest-model)

지원 동작은 마우스 커서 이동, 좌·우 클릭, 더블클릭, 드래그, 키보드 입력까지 포함합니다. 메뉴 탐색, 폼 입력, 탭 전환, 대화창 조작도 가능합니다. OpenAI 공식 문서에서 Playwright(Interactive) 스킬도 실험적으로 제공 중이며, 이를 통해 Codex가 자기가 짠 웹 앱을 스스로 시각적으로 디버깅하는 것도 가능합니다.

▲ 목차로 돌아가기

Plus 주간 한도와 Thinking 자동 전환, 차감 구조가 다릅니다

GPT-5.4 Thinking을 Plus 플랜에서 쓸 때 한도 구조가 상당히 복잡합니다. 공식 Help Center 문서에 딱 이렇게 나와 있습니다 — Plus·Business 기준으로 Thinking 주간 한도는 3,000건입니다. 그런데 이 한도에는 조건이 붙습니다.

⚠️ 한도 차감 조건 — 공식 문서 기준

  • 수동 선택 시: 모델 피커에서 ‘Thinking’을 직접 고르면 주간 3,000건 한도 차감
  • 자동 전환 시: Instant가 자동으로 Thinking으로 넘기는 경우 → 주간 한도 차감 없음
  • 한도 소진 후에도 자동 전환은 여전히 작동할 수 있음

출처: OpenAI Help Center “GPT-5.3 and GPT-5.4 in ChatGPT”, 2026.03.26 업데이트

즉, Instant 모드로 대화하다가 ChatGPT가 알아서 Thinking으로 전환한 경우에는 주간 한도가 줄지 않습니다. 수동으로 Thinking을 고른 경우에만 카운트됩니다. 매주 3,000건이면 상당히 넉넉하지만, 자동 전환과 수동 전환이 다른 한도 풀을 쓴다는 점은 모르면 손해입니다.

Go 플랜은 구조가 또 다릅니다. Go 사용자는 채팅 입력창의 + 아이콘에서 Thinking을 활성화해야 하고, 5시간에 10건까지만 쓸 수 있습니다. Plus의 주간 3,000건과 비교하면 큰 차이입니다.

▲ 목차로 돌아가기

요금 구조와 Claude Opus 4.6 비교 — 숫자로 보면 다릅니다

GPT-5.4 API 요금은 입력 $2.50 / 출력 $15.00 (1M 토큰당)입니다. Claude Opus 4.6이 입력 $15 / 출력 $75인 것과 비교하면, 출력 기준으로 5배 차이가 납니다. (출처: OpenAI 공식 블로그 Introducing GPT-5.4, 2026.03.05)

모델 입력 (1M) 출력 (1M) 컨텍스트
GPT-5.4 $2.50 $15.00 1M (API)
GPT-5.4 Pro $30.00 $180.00 272K
GPT-5.2 $1.75 $14.00
Claude Opus 4.6 $15.00 $75.00 200K

※ 출처: OpenAI 공식 블로그 “Introducing GPT-5.4” (2026.03.05) · API 기준, ChatGPT 구독 요금과 별개

출력 토큰 1M당 $15 vs $75 — 가격 차이가 5배입니다. 100만 토큰을 소비하는 작업이라면 비용이 $60 절감됩니다. 대용량 에이전트 워크플로우를 돌리는 팀에겐 의미 있는 차이입니다.

💡 OpenAI 공식 발표와 실제 청구 구조를 같이 보면 이게 보입니다 — GPT-5.4는 GPT-5.2 대비 토큰 효율이 높아서, 동일 작업에 필요한 총 토큰 수 자체가 줄어든다고 OpenAI가 직접 언급합니다. 단가가 오르더라도 실제 청구액은 비슷하거나 낮을 수 있다는 뜻입니다.

단, Batch·Flex 처리는 표준 API 요금의 50%, Priority(우선) 처리는 200%가 적용됩니다. 비용을 줄이려면 실시간 응답이 필요 없는 배치 작업에 Flex 모드를 쓰는 게 유리합니다.

▲ 목차로 돌아가기

보안 권고사항 — OpenAI가 직접 VM을 권장하는 이유

가장 많은 블로그가 건너뛰는 부분이 여기입니다. OpenAI가 공식 문서에서 Computer Use 작업을 격리된 가상 머신(VM)에서 실행할 것을 명시적으로 권장합니다. (출처: OpenAI 공식 블로그 Introducing GPT-5.4, 2026.03.05)

이유는 단순합니다. AI가 내 컴퓨터를 제어한다는 것은 곧 AI가 파일을 읽고, 애플리케이션을 실행하고, 네트워크에 접근할 수 있다는 의미입니다. 실수나 프롬프트 인젝션 공격이 발생하면 의도치 않은 동작으로 이어질 수 있습니다.

🔒 OpenAI 공식 보안 권고 3가지

  • Computer Use 작업은 격리된 VM(가상 머신)에서 실행할 것
  • 중요 데이터·자격증명이 있는 환경에서 에이전트를 직접 돌리지 말 것
  • 개발자 메시지로 에이전트의 행동 범위를 명확히 제한할 것

출처: OpenAI 공식 블로그 “Introducing GPT-5.4” (2026.03.05)

실제로 OpenAI는 2026년 3월 11일 자체 블로그에서 “AI 에이전트가 링크를 클릭할 때 프롬프트 인젝션 공격에 어떻게 저항하도록 설계해야 하는가”를 다룬 기술 문서도 공개했습니다. 에이전트가 웹을 탐색하고 파일을 다루는 만큼, 보안 리스크도 비례합니다.

▲ 목차로 돌아가기

실사용자가 마주치는 진짜 한계

OpenAI 공식 문서가 “첫 세대 구현(first-generation implementation)”이라고 직접 표현한 만큼, 아직 실제 업무에서 걸리는 지점이 있습니다.

첫 번째는 속도입니다. 모든 동작마다 스크린샷 왕복(round-trip)이 발생합니다. 복잡한 폼을 자동으로 채우는 작업이라면, 각 클릭·입력마다 스크린샷을 찍고 분석하는 과정이 반복됩니다. RPA(로보틱 프로세스 자동화)처럼 스크립트 기반 자동화보다 훨씬 느립니다.

두 번째는 클릭 정확도입니다. 모델이 픽셀 좌표를 근사치로 계산하기 때문에, UI 요소가 작거나 촘촘하게 배치된 경우 미스클릭이 납니다. 특히 해상도가 높거나 레이아웃이 동적으로 바뀌는 인터페이스에서 오류가 잦습니다.

세 번째는 1M 컨텍스트 사용 조건입니다. API에서 1M 토큰 컨텍스트를 쓰려면 model_context_window 파라미터를 별도로 설정해야 하며, 표준 272K를 초과하는 요청은 사용량 한도 2배 차감됩니다. (출처: OpenAI 공식 블로그 Introducing GPT-5.4, 2026.03.05) 단순히 긴 문서를 올린다고 자동으로 1M이 적용되지 않습니다.

💡 GPT-5.2의 OSWorld 점수가 47.3%였다는 사실을 같이 놓고 보면 — GPT-5.4가 75%로 뛴 게 단순 업그레이드가 아닌 구조적 도약임을 알 수 있습니다. 그러나 75%는 “나머지 25%는 여전히 실패한다”는 말이기도 합니다.

결론적으로 GPT-5.4 Computer Use는 개발자가 격리된 환경에서 파이프라인을 직접 구성해야 의미가 있는 기능입니다. ChatGPT 구독만으로 “AI가 내 컴퓨터 대신 일한다”를 바로 경험하기는 어렵습니다.

▲ 목차로 돌아가기

Q&A

Q1. ChatGPT Plus 구독자가 GPT-5.4 Computer Use를 쓸 수 있나요?

직접 쓸 수 없습니다. Computer Use는 OpenAI API의 computer 툴을 통해서만 접근 가능합니다. ChatGPT 웹·모바일 인터페이스에는 이 기능이 노출되지 않습니다. API 키가 있어야 합니다.

Q2. GPT-5.4 Thinking의 주간 3,000건 한도가 소진되면 어떻게 되나요?

모델 피커에서 Thinking을 수동으로 선택하는 것이 막힙니다. 단, ChatGPT가 자동으로 Instant → Thinking으로 전환하는 기능은 한도 소진 후에도 여전히 작동할 수 있습니다. 이 자동 전환은 주간 한도에 카운트되지 않습니다. (출처: OpenAI Help Center, 2026.03.26)

Q3. Computer Use를 실제로 쓰려면 어떤 환경이 필요한가요?

OpenAI API 계정과 키가 필요합니다. Python SDK로 gpt-5.4 모델에 computer 툴을 등록해 사용합니다. OpenAI는 보안상 격리된 VM에서 실행할 것을 공식 권장합니다. 개인 PC를 AI에게 직접 노출하는 방식은 권장되지 않습니다.

Q4. 무료(Free) 플랜에서 GPT-5.4를 쓸 수 있나요?

공식 문서에서 무료 플랜의 기준 모델은 GPT-5.3입니다. 5시간에 10건까지 GPT-5.3 메시지를 쓸 수 있고, 한도 소진 후에는 미니 모델로 전환됩니다. GPT-5.4 Thinking을 모델 피커에서 직접 선택하는 것은 Plus 이상에서만 가능합니다. (출처: OpenAI Help Center, 2026.03.26)

Q5. GPT-5.4와 Claude Opus 4.6, 어느 쪽이 코딩에 더 낫나요?

SWE-bench Verified 기준으로 Claude Opus 4.6(80.8%)이 GPT-5.4(약 80.0%)보다 미세하게 앞섭니다. 그러나 GPT-5.4의 출력 토큰 가격이 1M당 $15로 Claude Opus 4.6의 $75보다 5배 저렴합니다. 정확도가 최우선이라면 Claude, 비용과 추론 제어 유연성이 중요하면 GPT-5.4가 유리합니다.

▲ 목차로 돌아가기

마치며 — 총평

GPT-5.4 Computer Use는 분명 기술적으로 의미 있는 진전입니다. OSWorld-Verified 75%로 인간 평균을 넘어섰고, 요금 구조도 경쟁 모델 대비 공격적입니다. 단, 이 기능이 “ChatGPT 구독자 누구나 쓸 수 있는 것”인 것처럼 소개된 점은 솔직히 아쉽습니다.

실제로 써보려면 API 세팅, VM 격리 환경, 스크린샷 루프 구성까지 직접 해야 합니다. 개발자에게는 강력한 도구가 열린 것이고, 일반 사용자에게는 당분간 먼 이야기입니다. Plus Thinking 주간 한도 구조나 1M 컨텍스트 사용 조건처럼, 공식 문서를 직접 읽지 않으면 놓치기 쉬운 디테일들이 꽤 있습니다.

GPT-5.4가 “행동하는 AI” 방향의 큰 발걸음인 것은 맞습니다. 하지만 지금 당장은 그 발걸음을 따라 걷는 게 생각보다 까다롭습니다.

📎 본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Introducing GPT-5.4 (https://openai.com/index/introducing-gpt-5-4/)
  2. OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (https://help.openai.com/en/articles/11909943)
  3. OpenAI Developers Docs — Models (https://developers.openai.com/api/docs/models)
  4. OSWorld-Verified Leaderboard — LLM Stats (https://llm-stats.com/benchmarks/osworld-verified)

본 포스팅은 2026년 3월 28일 기준으로 작성되었습니다. OpenAI의 서비스 정책·UI·기능·요금은 업데이트로 인해 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 최신 정보는 반드시 OpenAI 공식 사이트에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기