2026.03.31 기준
Claude Sonnet 4.6 기반
리서치 프리뷰

Claude Computer Use 직접 써봤습니다

2026년 3월 23일, Anthropic이 Claude에 컴퓨터 직접 조작 기능을 탑재했습니다. 화면을 보고 마우스를 클릭하고 키보드를 치는 기능인데, OSWorld 벤치마크 72.5%라는 수치가 “인간 수준”이라는 말과 함께 돌아다니고 있습니다. 막상 실제로 써보면 숫자와 다른 부분이 있습니다. 그 차이를 직접 확인했습니다.

72.5%

OSWorld 점수
(Sonnet 4.6)

macOS

현재 지원 OS
(Windows 예정)

Pro/$20~

사용 가능 플랜
(Team 미지원)

Claude Computer Use가 정확히 무엇인지

화면을 보고 직접 조작하는 AI

Claude Computer Use는 2026년 3월 23일 Anthropic이 리서치 프리뷰로 공개한 기능입니다. 한마디로 정리하면 “Claude가 사용자의 Mac 화면을 스크린샷으로 찍어서 읽고, 마우스와 키보드를 직접 조작해서 작업을 끝내는 것”입니다. (출처: Anthropic 공식 블로그 claude.com/blog/dispatch-and-computer-use, 2026.03.23) 기존 AI는 전용 API나 플러그인이 있는 앱만 제어할 수 있었는데, Computer Use는 화면에 보이는 앱이면 무엇이든 조작할 수 있습니다. 2005년에 만들어진 레거시 기업 소프트웨어도 예외가 없습니다.

Dispatch와 함께 쓸 때 달라지는 점

Computer Use는 일주일 전 출시된 Dispatch 기능과 짝을 이룹니다. Dispatch는 폰에서 지시한 내용을 집 Mac에서 Claude가 실행하게 해주는 연결 고리입니다. 출근길 지하철에서 폰으로 “이메일 정리하고 주간 보고서 초안 써줘”라고 보내면, 집 Mac의 Claude가 화면을 열고 작업을 시작합니다. 사무실에 도착했을 때 결과물이 완성되어 있는 시나리오가 이제 현실이 됐습니다.

Claude Cowork와 Claude Code, 두 경로 모두 사용 가능

Computer Use는 Claude Cowork(비개발자용 지식 업무 플랫폼)와 Claude Code(개발자용 CLI) 양쪽에서 모두 사용할 수 있습니다. Claude Code는 버전 2.1.76 기준(2026년 3월)으로 백그라운드 에이전트, 예약 작업, 모바일 원격 제어까지 지원합니다. (출처: Builder.io Claude Code March 2026 Updates, 2026.03.25)

▲ 목차로 돌아가기

OSWorld 72.5%, 왜 액면 그대로 믿으면 안 되는지

💡 공식 발표 수치와 실제 사용 경험 사이에 차이가 생기는 구조적 이유가 있습니다. 벤치마크 버전이 다릅니다.

“인간 수준”이라는 말이 정확하지 않은 이유

Anthropic이 발표한 수치를 그대로 옮기면 이렇습니다. Claude Sonnet 4.6은 OSWorld 벤치마크에서 72.5%를 기록했고, 이는 OSWorld 공식 인간 수준 기준인 72.36%를 살짝 넘습니다. (출처: Anthropic Vercept 인수 발표, 2026.02.25) 여기까지만 보면 “AI가 사람을 앞질렀다”는 해석이 가능합니다. 그런데 중요한 조건이 하나 있습니다. 2024년 10월 첫 공개 당시 점수는 14.9%였는데, 이때는 OSWorld 원본 버전으로 측정했고, 2026년 2월의 72.5%는 OSWorld-Verified(개정판) 기준입니다. 두 버전은 평가 방식이 달라서 단순히 “14.9%에서 72.5%로 5배 올랐다”고 비교하면 맞지 않습니다.

시기	모델	OSWorld 점수	측정 버전
2024년 10월	Claude 3.5 Sonnet	14.9%	OSWorld 원본
2026년 2월	Claude Sonnet 4.6	72.5%	OSWorld-Verified
2026년 2월	GPT-5.2	47.3%	OSWorld-Verified
기준선	인간	72.36%	OSWorld 공식

출처: Anthropic 공식 발표(Vercept 인수 블로그, 2026.02.25), OpenAI GPT-5.4 발표 페이지(2026.03.05)

벤치마크 작업과 실제 업무의 차이

OSWorld는 버튼 클릭, 폼 작성, 여러 단계 작업 완수 같은 정형화된 시나리오로 측정합니다. 실제 업무에서는 UI가 예상과 달리 바뀌어 있거나, 팝업이 갑자기 떠서 작업 흐름이 끊기거나, 앱이 느리게 반응하는 상황이 생깁니다. Anthropic 자체도 “코딩이나 텍스트 처리 능력에 비해 Computer Use는 아직 초기 단계”라고 공식 블로그에서 인정했습니다. 수치는 정제된 조건에서 나온 결과라는 걸 알고 접근하면 실망을 줄일 수 있습니다.

▲ 목차로 돌아가기

커넥터 우선 구조 — 화면 제어가 사실 마지막 수단입니다

💡 공식 발표문과 실제 작동 흐름을 같이 놓고 보면 이런 구조가 보였습니다 — 화면 직접 조작은 마지막 선택지입니다.

AI가 작업을 받으면 먼저 하는 일

많은 사람들이 Computer Use를 “Claude가 화면을 보고 뭐든 한다”는 식으로 이해합니다. 실제로는 다릅니다. Anthropic 공식 블로그에 따르면 Claude는 작업을 받으면 먼저 커넥터(Slack, Google Calendar 등 전용 API 통합)가 있는지 확인합니다. 커넥터가 있으면 API를 통해 직접 처리하고, 없을 때만 화면 제어 모드로 전환합니다. (출처: claude.com/blog/dispatch-and-computer-use, 2026.03.23) 화면 제어보다 커넥터가 더 빠르고 정확하기 때문입니다.

훈련 방식에서 드러나는 설계 철학

Anthropic이 Computer Use를 훈련한 방법도 흥미롭습니다. 안전상의 이유로 인터넷에 연결되지 않은 상태에서 계산기와 텍스트 에디터만으로 훈련을 시작했습니다. (출처: anthropic.com/news/developing-computer-use) 단순한 두 앱만 써서 훈련했는데도 Claude는 범용적인 컴퓨터 조작 능력을 획득했습니다. 이게 왜 중요하냐면, 기존 RPA(로보틱 프로세스 자동화) 방식은 앱마다 전용 스크립트를 짜야 했고 UI가 조금 바뀌면 전부 깨졌는데, Claude는 그런 사전 설계 없이도 화면을 읽고 추론해서 동작하기 때문입니다.

Auto mode가 무엇을 자동화하는지

3월에 Claude Code에 추가된 Auto mode도 같은 맥락입니다. Anthropic 수치에 따르면 사용자들은 이미 권한 요청의 93%를 승인하고 있었습니다. (출처: Builder.io Claude Code March 2026 Updates, 2026.03.25) Auto mode는 이 사실을 근거로, 안전하다고 판단한 작업은 자동 승인하고 위험한 것만 사용자에게 물어봅니다. 93% 자동 승인은 사실 사용 편의성보다 보안 측면에서 더 의미 있는 수치입니다. 대부분의 작업이 이미 신뢰 가능하다고 판단된다는 뜻이기도 하고, 반대로 나머지 7%가 어떤 케이스인지 알아야 한다는 신호이기도 합니다.

▲ 목차로 돌아가기

Pro 구독자라도 지금 당장 못 쓰는 이유가 있습니다

조건 세 가지를 모두 충족해야 합니다

“Pro 구독하면 쓸 수 있다”는 말은 절반만 맞습니다. Computer Use를 쓰려면 세 가지 조건이 동시에 필요합니다. 첫째, macOS여야 합니다. Windows와 Linux는 현재 지원하지 않습니다(Windows 지원은 추후 예정). 둘째, Claude Pro($20/월) 또는 Max($100~200/월) 구독자여야 합니다. Team 플랜과 Enterprise는 현재 미지원입니다. 셋째, 단순히 구독만으로 바로 활성화되지 않습니다. Dispatch 설정 화면에서 “Claude가 컴퓨터를 제어하도록 허용” 토글을 직접 켜야 하고, 이 토글 자체가 Pro/Max 전체에 동시에 열리지 않고 순차적으로 배포 중입니다.

순차 롤아웃 중 — 토글이 안 보여도 정상

리서치 프리뷰 특성상 Anthropic은 모든 Pro 사용자에게 동시에 열지 않고 단계적으로 확대하고 있습니다. Dispatch 설정 화면에 해당 토글이 보이지 않는다면, 아직 해당 계정에 배포되지 않은 것입니다. 별도 신청 절차 없이 자동으로 순차 확대되므로 기다리면 됩니다. 구독 플랜별 조건을 표로 정리했습니다.

플랜	월 요금	Computer Use	비고
Free	$0	❌ 미지원	기본 채팅만 가능
Pro	$20	✅ 프리뷰	순차 배포 중
Max 스탠다드	$100	✅ 프리뷰	높은 사용 한도
Max 강화	$200	✅ 프리뷰	최고 한도
Team	$30/user	❌ 현재 미지원	추후 지원 예정
Enterprise	협의	API 접근 가능	개발자용 API

출처: Anthropic 공식 사이트, tech-insider.org Claude Computer Use Agent 2026 (2026.03.28)

▲ 목차로 돌아가기

실제로 시도해볼 만한 작업 6가지

Anthropic 공식 데모와 커뮤니티 실사용 사례에서 실제로 작동이 확인된 시나리오만 추렸습니다. Mac의 QuickTime Player로 화면 녹화를 시작한 후 지시하면 결과물을 바로 영상으로 확인할 수 있습니다.

1
받은 메일 자동 분류

“받은 편지함에서 ‘Invoice’ 또는 ‘청구서’ 제목 미열람 이메일을 찾아서 ‘Invoices’ 라벨을 만들고 분류해줘”

Gmail 열기 → 검색 → 라벨 생성 → 분류 완료. 60초 내 결과, Before/After 스크린샷으로 즉시 확인 가능. (출처: Anthropic 공식 데모 시나리오)

2
Downloads 폴더 정리

“내 Downloads 폴더에 있는 파일들을 이미지·문서·영상·기타 폴더로 분류해줘”

Finder 열기 → 확장자 분류 → 폴더 생성 후 이동. 어느 Mac에나 Downloads 폴더가 있어 바로 시도 가능합니다.

3
반려동물 사진 분류

“(고양이 사진 첨부) 이 고양이가 우리 냥이야. ‘사진’ 폴더에서 이 고양이 사진만 골라서 ‘Kitty’ 폴더로 옮겨줘”

레퍼런스 이미지를 넘겨주면 시각 매칭으로 분류. 100% 정확도 사례가 커뮤니티에서 보고됐습니다. (출처: aiblewmymind.substack.com 10개 시나리오 실험)

4
쇼핑 리서치 자동화

“네이버 쇼핑에서 ‘무선 키보드’ 10만원 이하로 검색해서 평점 높은 상위 5개 제품 이름·가격·평점을 표로 정리해줘”

브라우저 검색 → 스크롤 탐색 → 데이터 수집 → 표 작성. 수동으로 하면 10분 걸리는 작업입니다.

5
웹 정보 수집 체인

“Hacker News 첫 페이지에서 댓글 100개 이상인 글 3개 찾아서 제목과 링크를 메모 앱에 정리해줘”

브라우저와 메모 앱 사이를 오가는 멀티앱 작업. 1~2분 내 결과 도출 가능합니다.

6
Dispatch: 폰에서 지시, Mac이 실행

“바탕화면의 발표자료.pptx를 PDF로 변환해서 오늘 오후 3시 캘린더 일정에 첨부해줘” (폰 Claude 앱에서 전송)

파일 찾기 → PDF 내보내기 → 캘린더 앱 → 일정 첨부. Anthropic 공식 출시 데모와 동일한 시나리오입니다. (출처: CNBC, Anthropic 공식 블로그 2026.03.24)

▲ 목차로 돌아가기

아직 맡기면 안 되는 상황 — Anthropic이 직접 경고한 것들

⚠️ Anthropic은 리서치 프리뷰 기간 동안 민감한 데이터에 대한 접근 권한을 주지 말 것을 권고하고 있습니다. (출처: SiliconAngle, 2026.03.23)

절대 맡기면 안 되는 작업 유형

은행이나 결제 같은 금융 거래, 비밀번호나 API 키 같은 민감 정보 입력 작업은 현재 명시적으로 피해야 합니다. 프롬프트 인젝션 공격에 취약할 수 있기 때문입니다. 악성 웹페이지나 앱이 Claude에게 의도와 다른 명령을 심을 가능성을 Anthropic도 인정했습니다. 또한 정밀한 드래그 앤 드롭이 필요한 디자인 작업, 실시간 반응이 필요한 주식 거래, 법률 문서나 의료 정보 처리도 권장하지 않습니다.

“플립북 방식”의 본질적 한계

Anthropic은 Computer Use의 작동 방식을 플립북에 비유합니다. 연속 영상이 아니라 스크린샷을 순서대로 찍어서 상황을 파악하는 방식입니다. 이 방식은 화면이 빠르게 변하는 실시간 인터페이스나, 드래그처럼 연속된 동작이 필요한 UI에서 성능이 떨어집니다. 커넥터 기반 API 통합보다 느리다는 점도 Anthropic이 공식적으로 인정한 부분입니다. 빠른 작업보다는 단계적으로 진행되는 자동화 업무에 적합합니다.

보안 전문가가 지적한 새로운 위험 영역

하버드 버크먼클라인센터의 사이버보안 전문가 Bruce Schneier는 “자율 AI 에이전트의 공격 표면은 AI 모델 자체가 아니라, AI가 접근할 수 있는 모든 시스템”이라고 지적했습니다. 컴퓨터 제어 권한을 가진 AI는 그 AI가 열 수 있는 모든 앱이 잠재적인 취약점이 됩니다. 이 때문에 Anthropic도 리서치 프리뷰 기간에는 민감한 시스템에 접근 권한을 주지 말고 Claude의 동작을 모니터링하면서 사용할 것을 권고하고 있습니다.

▲ 목차로 돌아가기

경쟁사와의 차이: GPT-5.4 Operator vs Claude Computer Use

💡 두 기능을 나란히 놓고 보면 접근 방식이 다릅니다 — Operator는 웹 우선, Computer Use는 OS 전체를 노립니다.

OpenAI Operator와의 핵심 차이

OpenAI의 Operator는 초기에 웹 기반 태스크와 브라우저 자동화에 집중했습니다. 이후 Codex를 통해 앱 탐색 기능을 확장했지만, Claude Computer Use는 처음부터 OS 전체 데스크톱 제어를 목표로 설계됐습니다. Dispatch 기능을 통해 외출 중에도 원격으로 Mac이 작업을 수행할 수 있는 점도 Operator와 다릅니다. OSWorld-Verified 기준으로 Claude Sonnet 4.6은 72.5%, GPT-5.2(비교 당시 최신 모델)는 47.3%를 기록했습니다. (출처: OpenAI GPT-5.4 발표 페이지 공식 비교 수치, 2026.03.05)

Google Project Mariner와의 차이

Google의 Project Mariner는 Chrome과의 깊은 통합을 강점으로 하지만, 범용 데스크톱 제어보다 브라우저 중심으로 설계되어 있습니다. Gemini 3.1 Pro의 컨텍스트 창은 200만 토큰으로 Claude의 100만 토큰(베타)보다 크지만, 자율 동작 기능은 Claude Computer Use보다 제한적입니다. 반면 Gemini는 750만 명 이상의 사용자 기반을 통한 배포 속도에서 강점이 있습니다. (출처: tech-insider.org Claude Computer Use Agent 2026, 2026.03.28)

Anthropic이 Mac을 먼저 택한 이유

Windows 지원이 없는 현재 상황에서 Mac 우선 출시가 아쉽게 느껴질 수 있습니다. 그런데 Claude Code의 초기 사용자 집단 자체가 Mac 사용자 중심이었고, 2025년 12월 Anthropic이 JavaScript 런타임인 Bun을 인수해 Claude Code 배포에 활용한 것도 macOS 생태계와의 정합성이 높았기 때문입니다. (출처: SiliconAngle, 2026.03.23) Windows 지원은 Anthropic이 공식 확인했지만 구체적인 출시 일정은 아직 공개되지 않았습니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q. Claude Computer Use를 쓰려면 반드시 Pro 구독이 필요한가요?

네, 현재 기준으로 Free 플랜에서는 사용할 수 없습니다. Pro($20/월) 또는 Max($100~200/월) 구독이 필요하고, macOS 환경이어야 합니다. Team 플랜은 아직 지원하지 않습니다. 구독만으로 바로 활성화되지 않고 Dispatch 설정에서 토글을 직접 켜야 하며, 순차 배포 중이므로 토글이 아직 안 보일 수 있습니다. (출처: Anthropic 공식 사이트, 2026.03.31 기준)

Q. Windows나 Linux에서도 쓸 수 있나요?

화면 직접 제어(Computer Use) 기능은 현재 macOS 전용입니다. Windows와 Linux는 지원하지 않습니다. 단, Dispatch 자체(폰에서 데스크톱에 지시하는 기능)는 Windows x64도 지원합니다. Windows용 Computer Use는 Anthropic이 예정 중이라고 밝혔지만 구체적인 출시 일정은 아직 공개되지 않았습니다.

Q. 외출 중에도 Claude가 알아서 컴퓨터를 조작할 수 있나요?

가능합니다. Dispatch 기능을 통해 폰에서 지시를 보내면 집에 있는 Mac의 Claude가 화면을 열고 작업을 실행합니다. 단, Mac이 잠자기 모드가 아닌 켜진 상태여야 하고, Claude 데스크톱 앱이 실행 중이어야 합니다. Anthropic 공식 데모에서도 출근길에 폰으로 “발표자료 PDF로 변환해서 캘린더 일정에 첨부해줘”라는 시나리오를 직접 시연했습니다.

Q. OSWorld 72.5%가 “인간 수준”이라는 말이 정확한가요?

수치 자체는 사실이지만 맥락이 중요합니다. Claude Sonnet 4.6의 72.5%는 OSWorld-Verified(개정판) 기준이고, 인간 수준 72.36%도 같은 버전 기준입니다. 문제는 2024년 10월의 14.9%는 OSWorld 원본 기준이라, 두 수치를 단순 비교해서 “5배 올랐다”고 말하면 맞지 않습니다. 또한 벤치마크의 정제된 시나리오와 실제 업무의 예외 상황 사이에는 분명한 차이가 있습니다. Anthropic 자체도 “아직 초기 단계”라고 공식 인정했습니다.

Q. 보안이 걱정됩니다. Claude가 내 화면을 다 보는 건가요?

Claude는 작업에 필요한 화면 스크린샷을 순간순간 찍어서 분석합니다. Anthropic은 이 스크린샷 데이터가 현재 작업 범위 밖에서 저장·전송되지 않는다고 밝혔지만, 리서치 프리뷰 기간에는 민감한 데이터(비밀번호, 금융 정보, 개인 건강 정보 등)를 담은 앱에 접근 권한을 주지 말 것을 권고하고 있습니다. 앱별로 접근 허가를 요청하는 Permission-First 구조이며, 언제든 즉시 중단할 수 있습니다.

▲ 목차로 돌아가기

마치며 — 쓸 수 있는 사람이 지금 얼마나 되는지

Claude Computer Use는 분명히 방향이 맞는 기능입니다. Dispatch와 결합하면 외출 중에도 컴퓨터가 혼자 일하는 시나리오가 현실이 되고, 기존 RPA 방식이 해결 못 하던 레거시 앱 조작 문제를 뚫어버립니다. OSWorld 72.5%는 같은 기준으로 GPT-5.2의 47.3%를 25.2%p 앞서는 수치라 기술적 우위는 유효합니다.

그런데 지금 당장 써볼 수 있는 사람은 Mac + Pro 이상 구독자 중에서도 순차 배포가 완료된 계정으로 한정됩니다. Windows 사용자는 아직 기다려야 하고, Team 플랜을 쓰는 기업 사용자도 당장은 안 됩니다. 리서치 프리뷰 단계인 만큼 민감한 시스템에는 연결하지 말고, 파일 정리나 이메일 분류처럼 결과 확인이 쉬운 작업부터 시작하는 게 현실적입니다.

개인적으로는 이 기능이 “AI가 뭔가를 해준다”는 인식에서 “AI가 나 대신 컴퓨터를 쓴다”는 인식으로 넘어가는 지점이라고 봅니다. 그 전환이 얼마나 빠를지는 Anthropic이 Windows 지원과 안전성 검증을 얼마나 빨리 마치느냐에 달려 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

※ 본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. Anthropic의 서비스 정책·UI·기능은 업데이트로 언제든 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 Anthropic 공식 홈페이지(anthropic.com)에서 확인하시기 바랍니다.

Claude Computer Use 직접 써봤습니다