Claude Computer Use, Pro인데 10번 중 3번 틀립니다

Published on

in

Claude Computer Use, Pro인데 10번 중 3번 틀립니다

2026.03.23 기준
Claude Sonnet 4.6 기준
리서치 프리뷰

Claude Computer Use,
Pro인데 10번 중 3번 틀립니다

2026년 3월 23일, Anthropic이 공식 출시한 Computer Use 기능. 폰으로 지시하면 집 맥북이 혼자 일한다는 말, 솔직히 반만 맞습니다. OSWorld 벤치마크 72.5%가 의미하는 진짜 숫자를 먼저 보세요.

72.5%
OSWorld 성공률
(Claude Sonnet 4.6)
14.9%
2024년 10월
최초 출시 시 점수
72.4%
OSWorld
인간 기준선

Computer Use가 정확히 뭔지,
공식 발표문으로 확인했습니다

2026년 3월 23일, Anthropic이 공식 릴리스노트를 통해 Claude Computer Use를 리서치 프리뷰로 공개했습니다. (출처: Anthropic 공식 릴리스노트, 2026.03.23)

공식 문서에 딱 이렇게 나옵니다 — “Claude can open files, run dev tools, point, click, and navigate to what’s on your screen to perform tasks itself — with no setup required.” 설정 없이 화면에 보이는 것을 직접 클릭하고 타이핑한다는 뜻입니다.

사용 조건은 명확합니다. Claude Pro 또는 Max 플랜 가입자에 한해, macOS 데스크톱 앱을 최신 버전으로 업데이트하면 바로 쓸 수 있습니다. Windows는 현재 지원하지 않으며, 이유는 아직 공개되지 않았습니다.

💡 공식 발표문과 실제 작동 흐름을 같이 놓고 보니 이런 차이가 보였습니다

Computer Use는 크게 세 단계로 돌아갑니다. ① Claude가 화면 스크린샷을 캡처해 분석 → ② 다음에 할 행동(클릭 좌표, 타이핑 내용)을 결정 → ③ 그 행동을 실행 후 다시 스크린샷. 이 루프를 반복하면서 작업을 완료합니다. 이게 핵심인데, 여기서 “픽셀을 보고 확률적으로 판단”한다는 점이 기존 자동화 도구와 근본적으로 다릅니다.

단독으로도 쓸 수 있지만, 3월 17일에 나온 Dispatch(폰→데스크톱 원격 지시) 기능과 결합할 때 진가가 나옵니다. Dispatch가 “어디서나 지시하기”, Computer Use가 “실제로 실행하기”를 담당합니다.

▲ 목차로 돌아가기

72.5%라는 수치가
생각보다 냉정한 이유

Anthropic이 공식 블로그에서 밝힌 Computer Use 최초 OSWorld 점수는 14.9%였습니다. (출처: Anthropic 공식 블로그, 2024.10.22) 그게 2026년 3월 기준으로 Claude Sonnet 4.6에서 72.5%까지 올라왔습니다. (출처: awesomeagents.ai OSWorld 리더보드, 2026.03.26)

약 16개월 만에 약 4.9배 성능이 올랐습니다. 수치만 보면 인상적이죠. 그런데 여기서 놓치기 쉬운 게 있습니다.

기준 점수 비고
Claude Sonnet 4.6 72.5% 독립 평가 (2026.03)
Claude Opus 4.6 72.7% 독립 평가 (2026.03)
인간 기준선 72.4% OSWorld 기준
GPT-5.4 75.0% 자체 보고, 미검증
최초 출시(2024.10) 14.9% Claude 3.5 Sonnet
📊 수치가 말하는 것

OSWorld 인간 기준선이 72.4%입니다. Claude Sonnet 4.6이 72.5%니까, 인간과 거의 동급에 도달한 것입니다. “AI가 인간을 넘었다”가 아니라 “이제 겨우 인간 수준”이라는 뜻입니다. 10번 지시하면 2~3번은 여전히 실패한다고 보면 됩니다.

OSWorld는 Ubuntu·Windows·macOS에서 369개 실제 작업을 독립적으로 평가합니다. (출처: os-world.github.io) 평가 기관인 xlang.ai 팀이 직접 채점하기 때문에 수치 신뢰도가 높습니다. GPT-5.4의 75.0%는 OpenAI 자체 보고 수치로, 독립 검증이 아직 완료되지 않았습니다.

▲ 목차로 돌아가기

RPA랑 비슷하다고 생각했다면,
다릅니다

Selenium이나 UiPath 같은 기존 RPA 도구와 Claude Computer Use를 같은 선상에 놓는 경우가 많습니다. 근본적으로 다릅니다.

기존 RPA는 DOM 요소, 윈도우 핸들, 접근성 트리처럼 정형화된 구조를 기반으로 동작합니다. 같은 입력이면 항상 같은 결과가 나오는 결정론적(deterministic) 시스템입니다. 반면 Claude Computer Use는 픽셀을 보고 확률적으로 판단합니다. (출처: Anthropic 공식 API 문서, docs.anthropic.com)

💡 같은 팝업을 마주쳤을 때 두 시스템이 다르게 반응합니다
RPA 예상 외 팝업을 만나면 스크립트가 멈추거나 에러가 납니다. 범위 밖 행동은 하지 않습니다.
Claude 팝업을 보고 “이 정도는 눌러도 되겠다”고 스스로 판단해서 허용 버튼을 클릭해버릴 수 있습니다. 좋은 경우도 있지만, 의도하지 않은 권한 승인이 일어날 수 있습니다.

이 유연함이 Claude Computer Use의 강점이기도 합니다. UI가 바뀌거나 예상 외 화면이 나와도 사람처럼 상황을 읽고 대처합니다. 하지만 그 유연함이 곧 예측 불가능성이기도 합니다.

Anthropic도 공식 문서에서 “scrolling, dragging, zooming 같은 동작이 아직 완벽하지 않다”고 직접 인정했습니다. (출처: Anthropic 공식 블로그, 2024.10.22) 2026년 3월 기준으로도 이 기능은 여전히 “리서치 프리뷰” 상태입니다.

▲ 목차로 돌아가기

폰에서 지시하면 Mac이 혼자 일한다 —
실제 작동 방식

Anthropic이 공개한 데모 영상에서 직접 보여준 시나리오가 있습니다. 회의에 늦은 사용자가 폰으로 Claude에게 “피치덱을 PDF로 변환해서 캘린더 초대장에 첨부해줘”라고 지시합니다. 집에 있는 맥북에서 Claude가 파일을 찾아 열고, PDF로 변환하고, 캘린더 앱을 열어 첨부하는 과정을 혼자 처리합니다. (출처: Anthropic 공식 X/Twitter 게시물, 2026.03.23)

이게 가능한 구조는 Dispatch + Computer Use 조합입니다. Dispatch가 모바일 기기에서 받은 지시를 데스크톱 Claude로 전달하고, Computer Use가 실제 화면을 보며 작업을 실행합니다. 이 흐름은 3단계로 정리됩니다.

1
폰에서 지시 — Claude 모바일 앱(iOS/Android) 또는 Claude Desktop에서 텍스트로 작업을 보냅니다.
2
데스크톱에서 실행 — 집 맥북이 켜져 있어야 하고, Claude Desktop 앱이 실행 중이어야 합니다. Claude가 화면을 보며 지시대로 클릭, 타이핑합니다.
3
결과 확인 — 작업 완료 후 알림이 옵니다. 새 앱에 처음 접근할 때는 반드시 사용자 승인을 요청합니다. 중간에 언제든 중단할 수 있습니다.

반복 작업 자동화도 됩니다. “매일 아침 이메일을 스캔해줘”나 “매주 금요일 보고서 뽑아줘” 같은 일회성 설정 이후 자동 실행이 가능합니다. (출처: Business Standard, 2026.03.24) 다만 데스크톱 앱이 반드시 켜져 있어야 한다는 조건은 변하지 않습니다.

▲ 목차로 돌아가기

안 된다는 말이 빠져 있는 것들

공개된 데모와 보도자료에서 강조하는 것만 보면 막힐 부분이 잘 안 보입니다. 실제로 Anthropic이 공식 문서에서 인정한 한계와 현재 조건들을 정리했습니다.

⚠️ 현재 조건과 한계
macOS 전용 — Windows 지원은 공식 일정이 공개되지 않았습니다.
Pro/Max 전용 — Free, Plus 플랜에서는 사용 불가합니다.
데스크톱 앱 필수 — 맥북이 켜져 있고, Claude Desktop 앱이 실행 중이어야 합니다.
스크롤·드래그·줌 불완전 — Anthropic이 직접 공식 문서에서 밝힌 내용입니다. (출처: Anthropic 공식 블로그, 2024.10.22)
10번 중 약 2~3번 실패 — OSWorld 72.5% 기준. 복잡한 멀티앱 작업일수록 실패율이 높습니다.

ScreenSpot-Pro 벤치마크에서는 또 다른 약점이 드러납니다. 전문 소프트웨어(Photoshop, MATLAB, AutoCAD 등)의 복잡한 UI에서 정확한 위치를 찾아 클릭하는 능력, 즉 GUI 그라운딩 점수는 Claude가 이 리더보드에 아직 올라있지 않습니다. 소비자용 앱에서는 잘 되는데 전문 도구에서는 신뢰도가 떨어질 수 있다는 의미입니다. (출처: ScreenSpot-Pro 논문, arxiv.org)

써본 입장에서 솔직히 말하면, 단순 반복 작업(파일 변환, 양식 채우기)은 꽤 잘 됩니다. 반면 여러 앱을 오가거나 네트워크 상태에 따라 화면이 달라지는 작업은 중간에 멈추거나 잘못된 버튼을 누르는 경우가 있습니다. 지금 단계에서는 중요한 작업보다는 저위험 반복 작업에 먼저 쓰는 게 현실적입니다.

▲ 목차로 돌아가기

공식 문서가 직접 경고한 보안 함정

대부분의 소개 글에서 빠져 있는 부분입니다. Anthropic은 공식 문서에서 “AI에 컴퓨터 제어권을 주는 것은 새로운 공격 경로가 될 수 있다”고 직접 경고했습니다. (출처: Anthropic 공식 블로그, 2024.10.22)

구체적으로, 브라우저로 웹을 탐색하다가 악의적으로 심어진 지시문(프롬프트 인젝션)을 만나면 Claude가 그것을 정당한 명령으로 오해하고 실행할 수 있습니다. 일반 챗봇이라면 이상한 말을 출력하는 데 그치지만, 컴퓨터 제어권이 있으면 실제 파일을 열거나 이메일을 보내는 행동으로 이어집니다. (출처: OWASP LLM Top 10, 2026 기준)

💡 Anthropic이 공식적으로 권고한 사용 원칙
① 중요한 파일이나 계정이 없는 환경에서 먼저 테스트하세요.
② 새 앱 접근 승인 요청이 뜰 때 내용을 꼭 확인하세요. Claude가 임의로 허용하기 전에 사람이 검토하게 됩니다.
③ 금융 앱, 비밀번호 관리 앱, 민감한 이메일이 열려 있는 상태에서는 사용을 자제하세요.
④ 언제든 중단 가능합니다 — 중간에 개입해서 멈출 수 있습니다.

이 부분에서 기존 RPA와 또 한 번 다릅니다. Selenium 스크립트는 소셜 엔지니어링에 속지 않습니다. Claude는 웹페이지에서 읽은 내용을 맥락으로 이해하기 때문에 교묘한 지시문에 속을 가능성이 있습니다. “강력하기 때문에 주의해야 한다”는 말이 딱 맞는 상황입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Claude Computer Use는 무료로 쓸 수 있나요?

아닙니다. 2026년 3월 기준 Pro 또는 Max 플랜 가입자만 사용할 수 있습니다. Free, Plus 플랜에서는 지원되지 않습니다. (출처: Anthropic 공식 릴리스노트, 2026.03.23)

Q2. Windows에서는 언제 쓸 수 있나요?

공식 지원 일정이 아직 공개되지 않았습니다. 현재 macOS 전용으로 리서치 프리뷰 중이며, Windows 지원 여부와 시점에 대해 Anthropic이 공식 답변을 내놓지 않은 부분입니다.

Q3. 폰으로 지시할 때 맥북이 꺼져 있어도 되나요?

안 됩니다. 데스크톱 맥북이 켜져 있어야 하고, Claude Desktop 앱이 실행 중이어야 합니다. 컴퓨터가 꺼져 있으면 Dispatch로 지시를 보내도 작업이 실행되지 않습니다.

Q4. Claude Cowork와 Computer Use는 같은 기능인가요?

다릅니다. Cowork는 지정 폴더 안에서 파일을 읽고 편집하는 파일 기반 에이전트 작업 공간이고, Computer Use는 화면 전체를 보며 마우스·키보드를 제어하는 기능입니다. Computer Use가 Cowork와 통합되어 더 강력하게 작동합니다.

Q5. 실수로 중요한 파일을 지우거나 보내버릴 수도 있나요?

가능성은 있습니다. Anthropic은 새로운 앱에 처음 접근할 때는 반드시 사용자 승인을 요청하도록 설계했지만, 이미 접근 권한이 있는 앱 안에서 작업 중 잘못된 버튼을 클릭할 수는 있습니다. 중요한 파일이 없는 환경에서 먼저 테스트를 권장합니다.

▲ 목차로 돌아가기

마치며

Claude Computer Use는 방향성이 맞는 기능입니다. 2024년 10월 14.9%에서 2026년 3월 72.5%로 올라온 속도를 보면, 앞으로 1년 안에 실무 투입 가능한 수준이 될 가능성이 충분합니다. OSWorld 인간 기준선 72.4%에 도달했다는 사실 자체가 이 기술이 진지하게 받아들여야 할 단계에 왔다는 신호입니다.

다만 지금 당장은 “맡겨두고 퇴근해도 되는” 수준이 아닙니다. 10번 중 2~3번 틀리고, macOS 전용이고, Pro/Max에서만 됩니다. 보안 위험도 실제로 존재하며 Anthropic도 이를 공식 인정했습니다.

지금 쓸 거라면 저위험 반복 작업 위주로, 중간에 확인하면서 쓰는 게 현실적입니다. “AI가 내 비서가 됐다”고 느끼고 싶은 마음과 “이게 진짜 믿을 만한가”라는 질문 사이에서, 지금은 두 번째 질문을 먼저 하는 게 맞습니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료
  1. Anthropic 공식 릴리스노트 — Computer Use research preview (support.anthropic.com)
  2. Anthropic 공식 블로그 — Introducing computer use, a new Claude 3.5 Sonnet (2024.10.22) (anthropic.com)
  3. OSWorld 벤치마크 공식 리더보드 (os-world.github.io)
  4. Awesome Agents — Computer Use Leaderboard (2026.03) (awesomeagents.ai)
  5. CNBC — Anthropic says Claude can now use your computer to finish tasks (2026.03.24) (cnbc.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Claude Computer Use는 현재 리서치 프리뷰 상태로, Anthropic의 업데이트에 따라 내용이 달라질 수 있습니다. 수치 및 지원 범위는 작성 시점(2026.03.30) 기준입니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기