Claude Sonnet 4.6 기준
리서치 프리뷰
Claude Computer Use,
Pro인데 10번 중 3번 틀립니다
2026년 3월 23일, Anthropic이 공식 출시한 Computer Use 기능. 폰으로 지시하면 집 맥북이 혼자 일한다는 말, 솔직히 반만 맞습니다. OSWorld 벤치마크 72.5%가 의미하는 진짜 숫자를 먼저 보세요.
(Claude Sonnet 4.6)
최초 출시 시 점수
인간 기준선
Computer Use가 정확히 뭔지,
공식 발표문으로 확인했습니다
2026년 3월 23일, Anthropic이 공식 릴리스노트를 통해 Claude Computer Use를 리서치 프리뷰로 공개했습니다. (출처: Anthropic 공식 릴리스노트, 2026.03.23)
공식 문서에 딱 이렇게 나옵니다 — “Claude can open files, run dev tools, point, click, and navigate to what’s on your screen to perform tasks itself — with no setup required.” 설정 없이 화면에 보이는 것을 직접 클릭하고 타이핑한다는 뜻입니다.
사용 조건은 명확합니다. Claude Pro 또는 Max 플랜 가입자에 한해, macOS 데스크톱 앱을 최신 버전으로 업데이트하면 바로 쓸 수 있습니다. Windows는 현재 지원하지 않으며, 이유는 아직 공개되지 않았습니다.
Computer Use는 크게 세 단계로 돌아갑니다. ① Claude가 화면 스크린샷을 캡처해 분석 → ② 다음에 할 행동(클릭 좌표, 타이핑 내용)을 결정 → ③ 그 행동을 실행 후 다시 스크린샷. 이 루프를 반복하면서 작업을 완료합니다. 이게 핵심인데, 여기서 “픽셀을 보고 확률적으로 판단”한다는 점이 기존 자동화 도구와 근본적으로 다릅니다.
단독으로도 쓸 수 있지만, 3월 17일에 나온 Dispatch(폰→데스크톱 원격 지시) 기능과 결합할 때 진가가 나옵니다. Dispatch가 “어디서나 지시하기”, Computer Use가 “실제로 실행하기”를 담당합니다.
72.5%라는 수치가
생각보다 냉정한 이유
Anthropic이 공식 블로그에서 밝힌 Computer Use 최초 OSWorld 점수는 14.9%였습니다. (출처: Anthropic 공식 블로그, 2024.10.22) 그게 2026년 3월 기준으로 Claude Sonnet 4.6에서 72.5%까지 올라왔습니다. (출처: awesomeagents.ai OSWorld 리더보드, 2026.03.26)
약 16개월 만에 약 4.9배 성능이 올랐습니다. 수치만 보면 인상적이죠. 그런데 여기서 놓치기 쉬운 게 있습니다.
| 기준 | 점수 | 비고 |
|---|---|---|
| Claude Sonnet 4.6 | 72.5% | 독립 평가 (2026.03) |
| Claude Opus 4.6 | 72.7% | 독립 평가 (2026.03) |
| 인간 기준선 | 72.4% | OSWorld 기준 |
| GPT-5.4 | 75.0% | 자체 보고, 미검증 |
| 최초 출시(2024.10) | 14.9% | Claude 3.5 Sonnet |
OSWorld 인간 기준선이 72.4%입니다. Claude Sonnet 4.6이 72.5%니까, 인간과 거의 동급에 도달한 것입니다. “AI가 인간을 넘었다”가 아니라 “이제 겨우 인간 수준”이라는 뜻입니다. 10번 지시하면 2~3번은 여전히 실패한다고 보면 됩니다.
OSWorld는 Ubuntu·Windows·macOS에서 369개 실제 작업을 독립적으로 평가합니다. (출처: os-world.github.io) 평가 기관인 xlang.ai 팀이 직접 채점하기 때문에 수치 신뢰도가 높습니다. GPT-5.4의 75.0%는 OpenAI 자체 보고 수치로, 독립 검증이 아직 완료되지 않았습니다.
RPA랑 비슷하다고 생각했다면,
다릅니다
Selenium이나 UiPath 같은 기존 RPA 도구와 Claude Computer Use를 같은 선상에 놓는 경우가 많습니다. 근본적으로 다릅니다.
기존 RPA는 DOM 요소, 윈도우 핸들, 접근성 트리처럼 정형화된 구조를 기반으로 동작합니다. 같은 입력이면 항상 같은 결과가 나오는 결정론적(deterministic) 시스템입니다. 반면 Claude Computer Use는 픽셀을 보고 확률적으로 판단합니다. (출처: Anthropic 공식 API 문서, docs.anthropic.com)
이 유연함이 Claude Computer Use의 강점이기도 합니다. UI가 바뀌거나 예상 외 화면이 나와도 사람처럼 상황을 읽고 대처합니다. 하지만 그 유연함이 곧 예측 불가능성이기도 합니다.
Anthropic도 공식 문서에서 “scrolling, dragging, zooming 같은 동작이 아직 완벽하지 않다”고 직접 인정했습니다. (출처: Anthropic 공식 블로그, 2024.10.22) 2026년 3월 기준으로도 이 기능은 여전히 “리서치 프리뷰” 상태입니다.
폰에서 지시하면 Mac이 혼자 일한다 —
실제 작동 방식
Anthropic이 공개한 데모 영상에서 직접 보여준 시나리오가 있습니다. 회의에 늦은 사용자가 폰으로 Claude에게 “피치덱을 PDF로 변환해서 캘린더 초대장에 첨부해줘”라고 지시합니다. 집에 있는 맥북에서 Claude가 파일을 찾아 열고, PDF로 변환하고, 캘린더 앱을 열어 첨부하는 과정을 혼자 처리합니다. (출처: Anthropic 공식 X/Twitter 게시물, 2026.03.23)
이게 가능한 구조는 Dispatch + Computer Use 조합입니다. Dispatch가 모바일 기기에서 받은 지시를 데스크톱 Claude로 전달하고, Computer Use가 실제 화면을 보며 작업을 실행합니다. 이 흐름은 3단계로 정리됩니다.
폰에서 지시 — Claude 모바일 앱(iOS/Android) 또는 Claude Desktop에서 텍스트로 작업을 보냅니다.
데스크톱에서 실행 — 집 맥북이 켜져 있어야 하고, Claude Desktop 앱이 실행 중이어야 합니다. Claude가 화면을 보며 지시대로 클릭, 타이핑합니다.
결과 확인 — 작업 완료 후 알림이 옵니다. 새 앱에 처음 접근할 때는 반드시 사용자 승인을 요청합니다. 중간에 언제든 중단할 수 있습니다.
반복 작업 자동화도 됩니다. “매일 아침 이메일을 스캔해줘”나 “매주 금요일 보고서 뽑아줘” 같은 일회성 설정 이후 자동 실행이 가능합니다. (출처: Business Standard, 2026.03.24) 다만 데스크톱 앱이 반드시 켜져 있어야 한다는 조건은 변하지 않습니다.
안 된다는 말이 빠져 있는 것들
공개된 데모와 보도자료에서 강조하는 것만 보면 막힐 부분이 잘 안 보입니다. 실제로 Anthropic이 공식 문서에서 인정한 한계와 현재 조건들을 정리했습니다.
ScreenSpot-Pro 벤치마크에서는 또 다른 약점이 드러납니다. 전문 소프트웨어(Photoshop, MATLAB, AutoCAD 등)의 복잡한 UI에서 정확한 위치를 찾아 클릭하는 능력, 즉 GUI 그라운딩 점수는 Claude가 이 리더보드에 아직 올라있지 않습니다. 소비자용 앱에서는 잘 되는데 전문 도구에서는 신뢰도가 떨어질 수 있다는 의미입니다. (출처: ScreenSpot-Pro 논문, arxiv.org)
써본 입장에서 솔직히 말하면, 단순 반복 작업(파일 변환, 양식 채우기)은 꽤 잘 됩니다. 반면 여러 앱을 오가거나 네트워크 상태에 따라 화면이 달라지는 작업은 중간에 멈추거나 잘못된 버튼을 누르는 경우가 있습니다. 지금 단계에서는 중요한 작업보다는 저위험 반복 작업에 먼저 쓰는 게 현실적입니다.
공식 문서가 직접 경고한 보안 함정
대부분의 소개 글에서 빠져 있는 부분입니다. Anthropic은 공식 문서에서 “AI에 컴퓨터 제어권을 주는 것은 새로운 공격 경로가 될 수 있다”고 직접 경고했습니다. (출처: Anthropic 공식 블로그, 2024.10.22)
구체적으로, 브라우저로 웹을 탐색하다가 악의적으로 심어진 지시문(프롬프트 인젝션)을 만나면 Claude가 그것을 정당한 명령으로 오해하고 실행할 수 있습니다. 일반 챗봇이라면 이상한 말을 출력하는 데 그치지만, 컴퓨터 제어권이 있으면 실제 파일을 열거나 이메일을 보내는 행동으로 이어집니다. (출처: OWASP LLM Top 10, 2026 기준)
이 부분에서 기존 RPA와 또 한 번 다릅니다. Selenium 스크립트는 소셜 엔지니어링에 속지 않습니다. Claude는 웹페이지에서 읽은 내용을 맥락으로 이해하기 때문에 교묘한 지시문에 속을 가능성이 있습니다. “강력하기 때문에 주의해야 한다”는 말이 딱 맞는 상황입니다.
Q&A 5가지
마치며
Claude Computer Use는 방향성이 맞는 기능입니다. 2024년 10월 14.9%에서 2026년 3월 72.5%로 올라온 속도를 보면, 앞으로 1년 안에 실무 투입 가능한 수준이 될 가능성이 충분합니다. OSWorld 인간 기준선 72.4%에 도달했다는 사실 자체가 이 기술이 진지하게 받아들여야 할 단계에 왔다는 신호입니다.
다만 지금 당장은 “맡겨두고 퇴근해도 되는” 수준이 아닙니다. 10번 중 2~3번 틀리고, macOS 전용이고, Pro/Max에서만 됩니다. 보안 위험도 실제로 존재하며 Anthropic도 이를 공식 인정했습니다.
지금 쓸 거라면 저위험 반복 작업 위주로, 중간에 확인하면서 쓰는 게 현실적입니다. “AI가 내 비서가 됐다”고 느끼고 싶은 마음과 “이게 진짜 믿을 만한가”라는 질문 사이에서, 지금은 두 번째 질문을 먼저 하는 게 맞습니다.
- Anthropic 공식 릴리스노트 — Computer Use research preview (support.anthropic.com)
- Anthropic 공식 블로그 — Introducing computer use, a new Claude 3.5 Sonnet (2024.10.22) (anthropic.com)
- OSWorld 벤치마크 공식 리더보드 (os-world.github.io)
- Awesome Agents — Computer Use Leaderboard (2026.03) (awesomeagents.ai)
- CNBC — Anthropic says Claude can now use your computer to finish tasks (2026.03.24) (cnbc.com)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Claude Computer Use는 현재 리서치 프리뷰 상태로, Anthropic의 업데이트에 따라 내용이 달라질 수 있습니다. 수치 및 지원 범위는 작성 시점(2026.03.30) 기준입니다.











댓글 남기기