Research Preview
macOS Pro/Max 전용
Claude Computer Use, 써봤더니 조건이 있습니다
Anthropic이 2026년 3월 23일, Claude Cowork와 Claude Code에 Computer Use 기능을 리서치 프리뷰로 공개했습니다. AI가 Mac 화면을 직접 보고, 마우스를 클릭하고, 키보드를 입력하는 기능입니다. 결론부터 말씀드리면 — 기대했던 것과 꽤 달랐습니다.
(Sonnet 4.6)
성공률 추정
플랫폼
Computer Use가 정확히 뭔지부터 정리합니다
지금까지 Claude는 전용 커넥터(Slack, Google Calendar, Gmail 등)가 연결된 앱에서만 실제 행동을 할 수 있었습니다. 커넥터가 없는 앱은 말만 할 수 있고, 직접 손을 댈 수가 없었죠. Computer Use는 그 한계를 뒤집는 기능입니다. Claude가 Mac 화면을 스크린샷으로 찍고, 어디를 클릭해야 할지 픽셀 단위로 계산해서, 마우스와 키보드를 직접 움직입니다.
💡 공식 발표문과 실제 작동 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
Claude가 화면을 보는 방식은 연속적인 영상 스트림이 아닙니다. Anthropic은 “플립북(flipbook)”이라고 표현했는데, 스크린샷을 순차적으로 찍어서 맥락을 파악하는 방식입니다. 스크린샷 → 분석 → 클릭 → 다시 스크린샷의 사이클을 반복하기 때문에 연속 동작처럼 보이지만 실제로는 단계별로 잘게 쪼개져 있습니다. 이 구조가 속도 문제로 직결됩니다.
(출처: Anthropic 공식 블로그 “Developing Computer Use”, 2024.10)
중요한 건 Claude가 화면 제어를 마지막 수단으로 쓴다는 점입니다. 작업을 받으면 ① 커넥터 확인 → ② Chrome 브라우저 제어 → ③ 화면 직접 제어 순서로 시도합니다. Anthropic 공식 문서에 딱 이렇게 나와 있습니다: “Slack 커넥터를 통해 메시지를 가져오는 건 몇 초지만, 화면을 통해 Slack을 탐색하는 건 훨씬 느리고 오류 가능성이 높습니다.” 화면 제어는 커넥터가 없는 앱에만 쓰는 폴백(fallback) 메커니즘입니다.
(출처: support.claude.com — Let Claude use your computer in Cowork, 2026.03.23)
벤치마크 72.5%, 인간 수준이라는 말의 진짜 의미
Anthropic이 공개한 OSWorld 벤치마크 수치를 보면 처음엔 인상적입니다. Claude Sonnet 4.6이 72.5%, Opus 4.6이 72.7%를 기록했고, OSWorld가 측정한 인간 수준은 72.36%입니다.
(출처: Anthropic Vercept 인수 발표 블로그, 2026.02.25 / OSWorld 리더보드)
숫자만 보면 AI가 인간 수준을 넘은 것처럼 읽힙니다.
⚠️ 수치 비교 전에 반드시 확인해야 할 것
2024년 10월 Claude 3.5 Sonnet의 14.9%와 2026년 2월 72.5%는 같은 기준이 아닙니다. 14.9%는 OSWorld 원본 기준이고, 72.5%는 OSWorld-Verified(개정판) 기준입니다. 두 버전은 평가 방식이 달라서 단순 비교가 어렵습니다. Anthropic도 공식 발표에서 이 점을 명시했습니다. “5배 향상”이라는 말은 기술적으로 맞지만, 같은 시험을 5배 잘 본 게 아닐 수도 있습니다.
그럼에도 OSWorld 수치가 의미 있는 건, 같은 OSWorld-Verified 기준에서 GPT-5.2가 47.3%를 기록했기 때문입니다.
(출처: openai.com/index/introducing-gpt-5-4 공식 비교 수치)
Claude가 경쟁사 대비 실질적으로 앞서 있다는 건 부정하기 어렵습니다. 다만 벤치마크 점수와 실제 사용 경험 사이에는 여전히 큰 간격이 있습니다.
| 모델 | OSWorld 점수 | 기준 |
|---|---|---|
| Claude Sonnet 4.6 (2026.02) | 72.5% | OSWorld-Verified |
| Claude Opus 4.6 (2026.02) | 72.7% | OSWorld 리더보드 |
| GPT-5.2 (비교 수치) | 47.3% | OSWorld-Verified |
| 인간 수준 | 72.36% | OSWorld 공식 |
| Claude 3.5 Sonnet (2024.10) | 14.9% | OSWorld 원본 ≠ 위와 다름 |
※ OSWorld 원본과 OSWorld-Verified는 평가 방식이 다르므로 수치를 직접 비교 금지. (출처: goddaehee.tistory.com 기반 데이터 재정리)
어떻게 작동하는지, 클릭 한 번까지 따라가 봤습니다
실제로 화면을 제어할 때 Claude가 거치는 단계는 이렇습니다. 스크린샷 캡처 → 화면 해석 → 픽셀 계산 → 마우스·키보드 액션 → 다시 스크린샷으로 결과 확인. 이 사이클을 계속 반복합니다. Anthropic의 기술 블로그에 따르면 개발에서 가장 어려운 부분이 “픽셀 카운팅”이었다고 합니다. 어디를 얼마나 이동해서 클릭해야 하는지 계산하는 정밀도가 핵심이었던 거죠.
(출처: anthropic.com/news/developing-computer-use)
픽셀 정밀도가 0.5cm 차이로도 완전히 다른 버튼을 누를 수 있다는 뜻입니다.
막상 해보면 다릅니다. Lifehacker가 직접 테스트한 결과, Apple Calendar에 일정을 추가하는 간단한 작업이 30초 걸렸습니다. 문제는 Claude가 전용 “F1” 캘린더가 아닌 랜덤 캘린더에 추가했고, 수정 요청에 또 30초가 걸렸습니다. Downloads 폴더 정리 테스트에서는 Go to Folder 기능을 찾는 데만 1~2분이 소요됐고, 결국 테스터가 직접 중단했습니다.
(출처: lifehacker.com, Khamosh Pathak, 2026.03.24)
내가 직접 하는 게 더 빠른 작업이 꽤 있습니다.
반면 브라우저 기반 작업은 다릅니다. Techmeme 상위 5개 기사를 요약해서 Markdown 파일로 저장하는 작업은 백그라운드로 Chrome을 제어하면서 완료했고, 결과물 품질도 괜찮았다는 평가입니다. Chrome에서 실행 중인 Claude 탭 주변에 빛나는 테두리가 생기면서 어떤 작업을 하는지 시각적으로 확인할 수 있다는 점도 플러스입니다. 핵심은 “화면 직접 제어”보다 “브라우저 제어”가 실용성이 훨씬 높다는 것입니다.
Dispatch와 합쳐지면 달라지는 것들
Computer Use 단독으로는 Mac 앞에 앉아서 작업을 지시하고 기다려야 합니다. 여기에 Dispatch가 더해지면 이야기가 달라집니다. Dispatch는 3월 17일 출시된 기능으로, 폰과 데스크탑 사이에 하나의 지속적인 대화 스레드를 유지합니다.
(출처: support.claude.com/en/articles/13947068, 2026.03.17)
출근길 지하철에서 폰으로 지시하면, 집에 놓고 온 Mac이 알아서 작업합니다. 돌아오면 결과물이 있는 구조입니다.
💡 소셜 미디어에서 포착된 실제 사용 패턴을 공식 발표와 교차해보니 이게 보였습니다.
X(트위터)에서 한 사용자가 이렇게 표현했습니다: “/schedule이랑 합치면 사실상 크론잡(cron job)으로 모든 앱을 다룰 수 있는 백그라운드 워커다. AI 어시스턴트가 아니라 인프라다.” 이 표현이 핵심을 꿰뚫습니다. Claude Code에서 /loop 명령어(최대 50개 동시, 3일 후 자동 만료)와 Dispatch를 결합하면 “매일 아침 이메일 확인 → 요약 보고서 작성 → 캘린더 일정 확인”을 완전 자동화할 수 있습니다.
(출처: Gagan Saluja, X 게시물 / Anthropic 공식 블로그 dispatch-and-computer-use, 2026.03.23)
단, 조건이 있습니다. Mac이 깨어 있어야 하고 Claude Desktop 앱이 실행 중이어야 합니다. 잠자기 모드나 앱이 종료된 상태에서는 작동하지 않습니다. Mac mini처럼 24시간 켜두는 환경이 가장 이상적이고, 노트북 유저에겐 전원이 연결된 상태에서 잠자기 방지 설정이 필요합니다. Lifehacker 리뷰어도 “이 기능은 내가 가진 Mac이 아닌 Mac mini를 위해 만들어진 것”이라고 표현했습니다.
보안 함정 — Anthropic도 솔직하게 인정한 부분입니다
솔직히 말하면, 보안 부분이 가장 신경 쓰였습니다. Computer Use는 Cowork가 원래 쓰는 VM(가상머신) 샌드박스 밖에서 실행됩니다.
(출처: support.claude.com/en/articles/14128542, 2026.03.23)
즉, Claude가 내 실제 데스크톱과 앱을 직접 건드립니다. 이게 의미하는 건 — 잘못된 클릭, 잘못 이해된 지시, 혹은 프롬프트 인젝션 공격이 실제 파일과 데이터에 영향을 줄 수 있다는 것입니다.
프롬프트 인젝션은 Claude가 웹사이트나 파일을 읽는 중에 악의적인 텍스트가 Claude의 행동을 납치하는 공격입니다. OWASP(오픈소스 보안 프로젝트)는 이를 AI 앱의 최상위 보안 위험으로 분류합니다. Anthropic은 실시간 모델 활성화 스캐닝으로 이를 감지한다고 밝혔지만, “이 가드레일은 절대적이지 않습니다”라고 공식 문서에 명시했습니다.
(출처: VentureBeat, 2026.03.24 / Anthropic 공식 지원 문서)
절대적이지 않다는 말을 Anthropic이 직접 했습니다.
🚫 Anthropic이 공식적으로 쓰지 말라고 권고한 작업
- 금융 계좌 관리 및 투자 거래
- 법률 문서 및 계약서 처리
- 의료·건강 관련 정보 처리
- 타인의 개인정보가 포함된 앱 조작
- 비밀번호, API 키 등 민감 정보 입력
- HIPAA, FedRAMP, FSI 규정 적용 업무
(출처: support.claude.com/en/articles/14128542-let-claude-use-your-computer-in-cowork)
앱별 접근 권한 승인, 민감 앱 차단 목록, 사용자 중단 기능 같은 장치는 있습니다. 실제로 삭제 작업에는 추가 확인을 요청하고, 새 앱 접근 전에는 반드시 허가를 구합니다. 그래도 이 기능이 리서치 프리뷰 딱지를 달고 있는 이유가 있습니다. 지금 단계에서 민감한 데이터로 쓰는 건 Anthropic 스스로도 권장하지 않습니다.
기업 사용자에게 치명적일 수 있는 감사 로그 공백
💡 기업 도입을 검토하는 팀이라면 이 부분을 가장 먼저 봐야 합니다.
홍보 자료와 실제 엔터프라이즈 준비 상태 사이에 이런 간격이 보였습니다.
Cowork의 대화 내역은 Anthropic 서버가 아닌 사용자 기기에 로컬 저장됩니다. 여기까지는 프라이버시 측면에서 오히려 좋아 보입니다. 문제는 그 다음입니다. 기업용 감사 로그(audit log), 컴플라이언스 API, 데이터 내보내기 기능이 Cowork 활동을 포착하지 못합니다.
(출처: VentureBeat 리포트 기반 / Anthropic 공식 지원 문서 cross-reference)
Claude가 어떤 파일을 열었는지, 어떤 내용을 읽었는지, 무엇을 클릭했는지가 중앙에서 기록되지 않는다는 의미입니다.
X(트위터)에서 한 사용자가 이 문제를 날카롭게 짚었습니다: “에이전트 자체가 사용자가 될 때(같은 마우스, 키보드, 화면을 쓸 때), 전통적인 포렌식 기법으로는 인간 행동과 AI 행동을 구분할 수 없다. 감사 추적을 어떻게 생각하고 있는가?” Anthropic이 공식 답변을 내놓지 않은 부분입니다. 금융, 법률, 의료처럼 규제 감사가 필요한 업종에서는 지금 단계에서 도입을 고려하기 어려운 이유입니다.
Team 플랜($20/seat/월, 5~75인 규모)에서 관리자가 Cowork를 조직 단위로 켜고 끌 수는 있습니다. 하지만 개별 Computer Use 세션의 상세 활동은 현재 감사 추적 범위 밖입니다. 이 부분은 Anthropic이 향후 업데이트에서 다뤄야 할 과제이고, 현시점에서는 규정 준수 의무가 있는 조직에서 사용 전 법무·보안팀의 별도 검토가 필요합니다.
지금 바로 쓸 수 있는지 — 조건과 설정 방법
생각보다 간단합니다. Claude Desktop 앱 최신 버전을 설치하고, Settings → General → Computer Use에서 토글을 켜면 됩니다. 단, 리서치 프리뷰 단계라 Pro/Max 구독자 전원에게 동시에 열리지 않고 순차 배포 중입니다. 해당 토글이 아직 안 보이면 아직 배포되지 않은 것이고, 별도 신청 없이 기다리면 됩니다.
필수 조건 한눈에 정리
macOS 전용
Windows는 아직 미지원
Pro($20/월) 또는 Max
Free 플랜 미지원
Desktop 앱 실행 중
잠자기 모드 불가
처음 써볼 때는 간단하고 결과를 바로 확인할 수 있는 작업부터 시작하는 게 좋습니다. “Downloads 폴더 파일을 종류별로 분류해줘”나 “Safari에서 특정 페이지를 찾아서 내용 요약해줘” 정도가 적당합니다. 금융·의료·법률 관련 앱은 Denied Apps 목록에 미리 추가해두는 게 맞습니다. 1Password나 뱅킹 앱은 기본적으로 차단 목록에 넣어두길 권합니다. QuickTime Player로 화면 녹화를 해두면 Claude가 어떤 방식으로 작업을 처리하는지 확인하기 좋습니다.
Windows 지원은 이유가 아직 공개되지 않았지만, Cowork가 2026년 2월에 Windows x64 지원을 추가한 흐름을 보면 Computer Use도 결국 같은 방향으로 확장될 가능성이 높습니다. 다만 구체적인 일정은 Anthropic이 밝히지 않았습니다.
자주 묻는 질문
마치며 — 실망할 수 있고, 그게 정상입니다
Claude Computer Use를 한 줄로 정리하면: “OSWorld 수치는 인상적이지만, 실사용 성공률은 약 50%이고, 빠르지 않습니다.” MacStories의 리뷰에서 성공 6개, 실패 6개라는 결과가 그걸 잘 보여줍니다. 그리고 Anthropic도 이를 숨기지 않습니다. 공식 블로그에서 “Computer Use는 Claude가 코딩이나 텍스트를 다루는 것에 비해 아직 초기 단계”라고 직접 밝혔습니다.
그럼에도 써봐야 한다고 생각하는 이유가 있습니다. 이 기능이 겨냥하는 건 화면을 직접 제어해야만 닿을 수 있는 앱들의 긴 꼬리(long tail)입니다. 전용 커넥터가 없는 내부 사내 시스템, 오래된 레거시 앱, 아직 API를 공개하지 않은 서비스들이 여기에 해당합니다. 지금 당장 완벽하지 않더라도, AI가 닿을 수 없던 영역으로 가는 문이 처음 열린 겁니다. 단, 민감한 데이터와 함께 쓰거나, 기업 컴플라이언스가 필요한 환경에서 쓰는 건 아직 이릅니다.
본 포스팅 참고 자료
- ① Anthropic 공식 블로그 — “Dispatch and Computer Use” (claude.com/blog/dispatch-and-computer-use) 2026.03.23
- ② Anthropic 지원 문서 — “Let Claude use your computer in Cowork” (support.claude.com) 2026.03.23
- ③ VentureBeat — “Anthropic’s Claude can now control your Mac” (venturebeat.com) 2026.03.24
- ④ Lifehacker — “This New Claude Feature Can Automate Basically Everything on Your Mac” (lifehacker.com) 2026.03.24
- ⑤ goddaehee.tistory.com — “Claude Computer Use 리뷰” (goddaehee.tistory.com/560) 2026.03.24
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Claude Computer Use는 2026.03.23 기준 리서치 프리뷰이며, 이후 업데이트로 내용이 달라질 수 있습니다. 중요한 결정은 반드시 Anthropic 공식 문서를 기준으로 확인하시기 바랍니다.

댓글 남기기