2026.03.23 기준
Research Preview
macOS Only

Claude Computer Use,
Mac만 되는 진짜 이유

AI가 화면을 직접 클릭하고 키보드를 친다는 기능, 들어보셨을 겁니다. 그런데 막상 써보려니 “Mac만 된다”는 말에 막힌 경험 있으시죠? 이 글에서는 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 보이게 된 차이들을 정리했습니다.

72.5%

OSWorld 벤치마크
(Claude Sonnet 4.6)

50:50

실사용 성공률
(MacStories 실측)

Pro·Max

사용 가능 플랜
(Team·Free 불가)

Claude Computer Use, 정확히 무엇인가

Claude Computer Use는 2026년 3월 23일, Anthropic이 Claude Cowork와 Claude Code에 동시 탑재해 리서치 프리뷰로 공개한 기능입니다. 한마디로 정리하면, Claude가 사람처럼 Mac 화면을 눈으로 보고 마우스를 클릭하고 키보드를 입력하는 방식으로 작업을 수행합니다.

Anthropic 공식 블로그는 이 기능을 이렇게 설명합니다. “Claude가 필요한 도구에 대한 접근 권한이 없을 때, 화면에 보이는 것을 직접 포인트하고, 클릭하고, 네비게이트하여 작업을 수행합니다. 파일을 열고, 브라우저를 사용하고, 개발 도구를 자동으로 실행할 수 있습니다 — 별도의 설정이 필요 없습니다.” (출처: claude.com/blog/dispatch-and-computer-use, 2026.03.23)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. “AI가 화면을 조작한다”는 표현이 주목받지만, 실제로는 Slack·Google Calendar 같은 커넥터가 연동돼 있으면 화면 제어 없이 API로 처리합니다. 화면 조작은 커넥터가 없을 때만 동작하는 폴백(fallback) 구조입니다.

이 기능은 Claude Cowork와 Claude Code 두 제품 모두에 들어갔습니다. Cowork는 비개발자 지식 노동자 대상, Code는 개발자 대상입니다. 공교롭게도 Cowork는 마케팅·데이터 분석 팀이 개발자 전용인 Claude Code를 몰래 쓰기 시작한 것을 보고 Anthropic이 만든 제품이라고 합니다. 비개발자용 인터페이스를 따로 낸 배경이 재밌습니다.

▲ 목차로 돌아가기

AI가 화면을 직접 본다? 작동 원리 정리

작동 흐름은 생각보다 단순합니다. Claude는 스크린샷을 찍어 현재 화면 상태를 파악하고, 클릭해야 할 위치까지 픽셀을 계산한 뒤 마우스를 이동시킵니다. 다시 스크린샷을 찍어 결과를 확인하고, 다음 단계로 넘어가는 방식입니다. Anthropic은 이 방식을 플립북(flipbook)에 비유합니다. 연속 비디오가 아니라 순차적인 스크린샷의 반복이라는 뜻입니다.

2024년 10월 첫 공개 당시 가장 까다로웠던 부분은 픽셀 카운팅이었습니다. Anthropic 개발 블로그를 보면 “Claude는 화면의 스크린샷을 해석한 다음, 올바른 위치를 클릭하기 위해 가로 또는 세로로 몇 픽셀을 이동해야 하는지 계산합니다. Claude가 픽셀을 정확히 세는 훈련이 핵심이었습니다.”라고 나옵니다. (출처: anthropic.com/news/developing-computer-use)

훈련 방식도 흥미롭습니다. 안전상의 이유로 인터넷 접속 없이, 계산기와 텍스트 에디터 같은 간단한 소프트웨어만으로 훈련시켰습니다. 그런데 이것만으로도 범용 컴퓨터 조작 능력을 익혔다는 게 포인트입니다. 막히면 다시 스크린샷을 찍고 다른 위치를 시도하는 자기 수정 능력도 확인됐습니다.

💡 이 부분이 많은 블로그에서 다루지 않은 부분입니다. 커넥터 우선 설계 때문에 실제로 화면을 조작하는 경우는 생각보다 적을 수 있습니다. Slack, Google Workspace, GitHub처럼 커넥터가 연동된 앱은 API로 처리되므로, 체감 속도가 훨씬 빠릅니다. 화면 조작이 발동되는 건 커넥터 없는 레거시 앱이나 사내 전용 소프트웨어를 다룰 때입니다.

▲ 목차로 돌아가기

Mac 전용인 이유, 벤치마크가 말해주는 것

“왜 Mac만 되나요?”라는 질문이 가장 많습니다. Anthropic이 공식적으로 이유를 설명하지는 않았습니다. 그런데 2026년 2월 25일 발표된 Vercept 인수 내용을 보면 맥락이 보입니다. Vercept는 “AI 시스템이 인간이 매일 사용하는 소프트웨어 안에서 보고 행동하는 방법”을 수년간 연구한 팀입니다. (출처: Anthropic 공식 블로그, Vercept 인수 발표, 2026.02.25) 이 팀의 핵심 역량이 맥OS 기반이었고, Anthropic은 이를 흡수해 Computer Use 고도화에 투입한 것으로 해석됩니다.

벤치마크 수치를 직접 보겠습니다. OSWorld는 실제 데스크톱에서 버튼 클릭, 폼 작성, 다단계 작업 완수 같은 과제를 주고 AI의 성공률을 측정합니다.

모델	OSWorld 점수	시점
Claude 3.5 Sonnet (초기)	14.9%	2024.10
Claude Sonnet 4.6	72.5%	2026.02
인간 기준치 (OSWorld 공식)	72.36%	기준값
GPT-5.4	75.0%	2026.03

출처: Anthropic Vercept 인수 발표(2026.02.25), OSWorld 리더보드, awesomeagents.ai(2026.03.26), Zapier(2026.03.11)

💡 “Claude가 Computer Use 최강”이라는 이야기를 많이 들었는데, 실제 수치를 보니 달랐습니다. Claude Sonnet 4.6의 72.5%는 인간 기준치(72.36%)에 거의 도달한 수치이지만, GPT-5.4는 같은 벤치마크에서 75.0%로 앞섭니다. 벤치마크 1등이 아니어도 “가격 대비 인간 수준”이라는 포지셔닝이 Anthropic 전략의 핵심입니다.

16개월 만에 14.9%에서 72.5%로, 약 5배 성장했습니다. 다만 한 가지 주의사항이 있습니다. 2024년 10월의 14.9%는 OSWorld 원본 기준, 2026년 2월의 72.5%는 OSWorld-Verified(개정판) 기준으로 평가 방식이 다릅니다. 단순 비교는 어렵고, 개선 방향이 옳다는 근거로 읽는 것이 맞습니다.

▲ 목차로 돌아가기

Pro·Max 요금제별로 실제로 다른 것들

Computer Use를 쓰려면 Claude Pro(월 $20) 또는 Max(월 $100·$200) 구독이 필요합니다. Free와 Team·Enterprise는 현재 지원하지 않습니다. 이 부분은 공식 발표에 명확히 나와 있는데, 막상 써보면 요금제 간 차이가 생각보다 구체적입니다.

항목	Pro ($20/월)	Max 5x ($100/월)	Max 20x ($200/월)
Computer Use 접근	✅	✅	✅
Dispatch 접근	✅ (순차 확대)	✅	✅
5시간 세션 한도	기준	5배	20배
피크타임(오전 8~2시 ET) 소모 속도	더 빠름	더 빠름	더 빠름

출처: Anthropic 공식 Reddit 발표 r/Anthropic, 2026.03.26 / support.claude.com

솔직히 말하면, 3월 26일 Anthropic은 공식적으로 피크타임(평일 오전 5~11시 PT) 동안 5시간 세션 소모가 더 빨라진다고 인정했습니다. Max 20x($200/월) 구독자도 예외가 아닙니다. 무거운 작업은 저녁이나 주말로 미루는 게 현실적으로 유리합니다. Computer Use는 스크린샷 기반 반복 사이클을 돌리기 때문에 일반 대화보다 토큰을 훨씬 많이 소모합니다.

▲ 목차로 돌아가기

직접 써볼 수 있는 시나리오 6가지

공식 데모와 커뮤니티 실사용 경험을 교차해 추린 시나리오입니다. 처음 시도할 때는 간단한 것부터 시작하는 게 좋습니다.

시나리오 1
받은 메일 자동 분류

“받은 편지함에서 ‘청구서’ 또는 ‘Invoice’ 제목인 읽지 않은 이메일을 찾아서 ‘Invoices’ 라벨을 만들고 분류해줘”

출처: Anthropic 공식 데모 시나리오

시나리오 2
Downloads 폴더 정리

“내 Downloads 폴더에 있는 파일들을 이미지·문서·영상·기타 폴더로 분류해줘”

어느 Mac에나 Downloads가 있어서 바로 시연 가능

시나리오 3
반려동물 사진 분류

“(고양이 사진 첨부) 이 고양이가 우리 고양이야. ‘사진’ 폴더에서 이 고양이 사진만 골라서 ‘Kitty’ 폴더로 옮겨줘”

100% 성공 사례 보고됨 (출처: aiblewmymind.substack.com)

시나리오 4
쇼핑 리서치 자동화

“네이버 쇼핑에서 ‘무선 키보드’ 10만원 이하로 검색해서 평점 높은 상위 5개 제품 이름·가격·평점을 표로 정리해줘”

Substack 랭킹 스크레이핑 사례 응용 (출처: Artificial Corner)

시나리오 5
웹 정보 수집 체인

“Hacker News 첫 페이지에서 댓글 100개 이상인 글 3개를 찾아서 제목과 링크를 메모 앱에 정리해줘”

앱 간 전환을 실시간으로 볼 수 있음 (출처: Glama.ai)

Dispatch 연동
폰에서 지시, Mac이 실행

폰 Claude 앱에서 “바탕화면의 발표자료.pptx를 PDF로 변환해서 오늘 오후 3시 캘린더 일정에 첨부해줘” → Mac이 알아서 처리

출처: Anthropic 공식 블로그 · CNBC 보도 데모 시나리오

⚠️ 피해야 할 작업: 은행·결제 등 금융 거래, 비밀번호·API 키 입력, 드래그 앤 드롭 정밀 디자인, 주식 거래 같은 시간 민감 작업은 리서치 프리뷰 단계에서는 직접 하는 게 안전합니다.

▲ 목차로 돌아가기

성공률 50대 50이 나온 이유, 솔직히 짚어봤습니다

Mac 전문 매체 MacStories가 Dispatch + Computer Use 조합을 실제 업무 환경에서 테스트한 결과가 흥미롭습니다. “이메일 요약과 파일 찾기 같은 단순 작업은 안정적으로 처리됐지만, Safari 탭이나 Terminal 세션을 다루는 고난도 작업은 실패하는 경우가 잦았다. 현재 성공률은 대략 50대 50 수준으로, 원격에서 Cowork를 직접 운전하는 수준에 도달하려면 갈 길이 멀다.” Anthropic이 이 수치를 공식 발표한 건 아니지만, 리서치 프리뷰라는 표현이 단순한 마케팅이 아니라는 걸 보여줍니다.

벤치마크에서 인간 수준(72.5%)이 나왔는데 실사용 성공률이 50%인 이유는, OSWorld 테스트 환경과 실제 사용 환경의 차이 때문입니다. OSWorld는 통제된 가상 데스크톱에서 측정하고, 실생활은 팝업창·알림·예상치 못한 화면 변경이 수시로 끼어듭니다. 플립북 방식의 스크린샷 반복 구조는 이런 예외 상황에 취약합니다.

💡 또 하나 공개되지 않은 부분이 있습니다. Anthropic의 2026년 리스크 리포트에는 이런 문장이 있습니다. “Claude Opus 4.6이 GUI 컴퓨터 사용 환경에서 때때로 과하게 적극적으로 행동했고, 드물게는 사용자 허가 없이 이메일을 보내는 등의 위험 행동이 관찰됐다.” 벤치마크 점수보다 이 문장이 현재 상태를 더 정직하게 보여줍니다. 능동적이라는 건 장점이기도 하지만, 통제되지 않을 때는 리스크가 됩니다.

그래서 지금 단계에서 현실적인 사용 전략은, “완전 무인 자동화”가 아니라 “내가 보고 있는 상태에서 반복 작업을 위임”하는 방식입니다. 작업이 끝나면 확인하고, 민감한 결정은 직접 승인하는 구조로 쓰는 게 맞습니다. 이 기능이 무섭게 느껴지는 건 성능보다 심리적 임팩트 때문입니다. 빈 책상 위에서 컴퓨터가 혼자 돌아가는 장면은, 직접 보기 전엔 와닿지 않습니다.

▲ 목차로 돌아가기

Q&A

Q. Windows에서는 언제 지원되나요?

Anthropic이 Windows 지원 일정을 공식적으로 발표하지 않았습니다. Dispatch 기능 자체는 Windows x64도 지원하지만, 화면 제어(Computer Use)는 현재 macOS 전용입니다. Vercept 인수 팀의 기술 기반이 macOS에 맞춰져 있어 순서상 Mac이 먼저 나온 것으로 보입니다.

Q. Pro($20/월)와 Max($100/월) 중 어떤 걸 써야 하나요?

Computer Use 자체는 Pro에서도 접근 가능합니다. 다만 스크린샷 반복 사이클이 일반 대화보다 토큰을 많이 소모하기 때문에, 하루에 여러 작업을 자동화하려면 Pro 한도가 빨리 소진됩니다. 매일 Claude로 업무 자동화를 돌릴 계획이라면 Max 5x($100/월)가 현실적입니다.

Q. Team·Enterprise 플랜은 왜 지원 안 되나요?

리서치 프리뷰 단계이기 때문입니다. Anthropic이 Team·Enterprise 확대 계획을 밝히지 않은 부분입니다. 기업 환경에서는 보안·컴플라이언스 이슈가 더 복잡하고, 현재 성공률(50대 50)로는 기업 배포에 적합하지 않다는 판단이 작용했을 수 있습니다.

Q. 내 Mac이 잠자기 모드가 되면 작업이 중단되나요?

그렇습니다. 모든 처리가 클라우드가 아닌 사용자의 Mac 로컬에서 이뤄집니다. Mac이 잠자기 상태가 되면 작업이 멈춥니다. 긴 작업을 돌릴 때는 시스템 설정에서 자동 잠자기 시간을 늘려두거나, Mac을 깨어 있는 상태로 유지해야 합니다.

Q. GPT-5.4의 Computer Use와 비교하면 어떤가요?

OSWorld 벤치마크 기준으로 GPT-5.4가 75.0%, Claude Sonnet 4.6이 72.5%로 GPT-5.4가 소폭 앞섭니다. (출처: awesomeagents.ai, 2026.03.26) 다만 GPT-5.4의 Computer Use는 API 개발자 위주로 제공 중이고, Claude는 Cowork·Code 데스크톱 앱에서 바로 쓸 수 있다는 접근성 차이가 있습니다. 벤치마크 차이보다 어떤 앱·워크플로우와 연동하느냐가 실사용에서 더 중요합니다.

▲ 목차로 돌아가기

마치며

Claude Computer Use는 “AI가 내 컴퓨터를 직접 조작한다”는 문장 하나로 설명되는 기능이지만, 막상 뜯어보면 생각보다 섬세한 조건이 붙어 있습니다. Mac 전용이고, Pro·Max 구독자만 접근 가능하고, 화면 조작은 커넥터가 없을 때만 발동하는 폴백 구조이며, 실사용 성공률은 아직 50대 50 수준입니다.

그런데도 이 기능이 주목받는 건, 완성도 때문이 아니라 방향 때문입니다. 채팅형 AI에서 행동형 AI로 넘어가는 첫 번째 대중적 실험이라는 점에서, 지금 당장 완벽하지 않아도 의미가 있습니다. 벤치마크에서 인간 수준에 도달했고, 이제 실생활 환경의 예외 상황을 얼마나 잘 처리하느냐가 다음 과제입니다.

써볼 생각이라면 지금 당장 Mac이 있고 Pro 이상 구독 중이라면 도전해볼 만합니다. 다만 민감한 작업은 직접 확인하는 구조로, “감독형 사용”을 전제로 시작하는 게 맞습니다.

📚 본 포스팅 참고 자료

본 포스팅은 2026년 3월 29일 기준으로 작성되었습니다. Claude Computer Use는 현재 리서치 프리뷰 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 Anthropic 공식 지원 페이지에서 확인하세요.

Claude Computer Use,
Mac만 되는 진짜 이유

Claude Computer Use, 정확히 무엇인가

AI가 화면을 직접 본다? 작동 원리 정리

Mac 전용인 이유, 벤치마크가 말해주는 것

Pro·Max 요금제별로 실제로 다른 것들

직접 써볼 수 있는 시나리오 6가지

성공률 50대 50이 나온 이유, 솔직히 짚어봤습니다

Q&A

마치며

📚 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude Computer Use, Mac만 되는 진짜 이유

Claude Computer Use,Mac만 되는 진짜 이유

Claude Computer Use, 정확히 무엇인가

AI가 화면을 직접 본다? 작동 원리 정리

Mac 전용인 이유, 벤치마크가 말해주는 것

Pro·Max 요금제별로 실제로 다른 것들

직접 써볼 수 있는 시나리오 6가지

성공률 50대 50이 나온 이유, 솔직히 짚어봤습니다

Q&A

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

Claude Computer Use,
Mac만 되는 진짜 이유