Claude Code Auto Mode, 안전하다고 믿으면 안 되는 조건

Published on

in

Claude Code Auto Mode, 안전하다고 믿으면 안 되는 조건

2026.03.24 출시 기준
Claude Code v2.1.87 기준
리서치 프리뷰

Claude Code Auto Mode,
안전하다고 믿으면 안 되는 조건

“이제 일일이 승인 안 눌러도 되겠다.” — 이 생각이 정확히 Anthropic이 기대한 반응입니다. 그런데 공식 엔지니어링 문서에 17%라는 숫자가 조용히 적혀 있습니다. Auto Mode가 실제 위험 행동을 놓치는 비율입니다. 써볼 만하지만, 조건을 먼저 봐야 합니다.

17%
위험 행동 누락률
(실제 과도한 행동 기준)
0.4%
정상 작업 오차단율
(실제 트래픽 n=10,000)
Team↑
현재 사용 가능 플랜
(Pro·Max·Free 미지원)

Auto Mode가 나온 진짜 이유 — 93%가 읽지 않고 눌렀다

Claude Code의 기본 권한 모드는 파일 한 줄 수정에도, bash 명령어 하나에도 승인을 요구합니다. 안전하게 설계된 기본값이지만, Anthropic 내부 데이터를 보면 이 구조가 사실상 작동하지 않았습니다.

💡 공식 엔지니어링 문서(Anthropic Engineering, 2026.03.24)에 이런 문장이 나옵니다: “manual prompts sit in the middle, and in practice users accept 93% of them anyway.”
사용자가 실제로 읽고 판단한 게 아니라 습관적으로 눌렀다는 뜻입니다.

93%를 그냥 통과시켰다면, 사람이 감시하는 게 아니라 클릭이 감시하는 셈입니다. Anthropic은 이 패턴을 “approval fatigue(승인 피로)”라고 정의합니다. 매번 묻는 게 안전한 게 아니라 오히려 주의를 분산시킨다는 문제 인식입니다.

기존에 이 피로를 해결하는 방법은 두 가지뿐이었습니다. –dangerously-skip-permissions 플래그로 모든 검사를 끄거나, 도커 컨테이너 같은 샌드박스 환경을 직접 구성하는 것. 전자는 편하지만 위험하고, 후자는 안전하지만 유지보수가 번거롭습니다.

Auto Mode는 이 두 극단 사이에 세 번째 선택지를 꽂아 넣은 겁니다. AI가 각 작업의 위험도를 직접 판단하고, 안전하면 자동으로 실행하고, 위험하면 스스로 막습니다. (출처: Anthropic 공식 블로그, 2026.03.24)

작동 원리: 분류기가 판단을 대신하는 구조

Auto Mode를 켜면 각 tool call이 실행되기 전에 별도의 분류기 모델(Claude Sonnet 4.6)이 먼저 해당 작업을 심사합니다. 메인 세션과 완전히 분리된 모델이 독립적으로 판단하는 구조입니다.

판단은 고정된 순서로 진행되고, 첫 번째로 매칭되는 단계에서 결론이 납니다.

판단 순서 (첫 번째 매칭이 최종 결정)

  1. 사용자의 allow/deny 규칙에 매칭 → 즉시 허용 또는 거부
  2. 읽기 전용 작업 또는 워킹 디렉토리 내 파일 수정 → 자동 허용
  3. 그 외 shell 명령, 네트워크 요청 등 → 분류기에 전달
  4. 분류기 차단 시 → Claude에게 이유 전달, 대안 접근 시도

분류기가 보는 것과 보지 않는 것

분류기는 사용자 메시지와 tool call(명령어 자체)만 받습니다. Claude의 응답 텍스트와 tool result(파일 읽기 결과, 웹 페이지 내용, 쉘 출력)는 의도적으로 제거됩니다.

💡 공식 문서와 실제 발표문을 같이 놓고 보면 이런 구조가 보입니다. 파일 안에 “이 명령어를 실행해”라는 악성 지시가 숨어있어도, 분류기는 파일 내용 자체를 읽지 않습니다. 대신 그 지시로 인해 생성된 tool call을 보고 “이게 사용자가 요청한 것과 맞나”를 판단합니다.

분류기는 2단계 파이프라인으로 실행됩니다. Stage 1은 단일 토큰(yes/no) 빠른 필터로 의심스럽다고 판단되면 차단 쪽으로 기웁니다. Stage 2는 Stage 1이 플래그를 세운 경우에만 실행되고, 체인 오브 쏘트(chain-of-thought) 추론으로 오차단을 걸러냅니다. 프롬프트가 대부분 캐시로 공유되기 때문에 2단계 추가 비용은 생각보다 크지 않습니다. (출처: Anthropic Engineering Deep Dive, 2026.03.24)

서브에이전트까지 검사하는 구조

Claude가 하위 에이전트를 생성할 때도 검사는 건너뛰지 않습니다. 위임 직전, 실행 중, 완료 후 반환 시점에 각각 분류기가 작동합니다. 특히 완료 후 검사가 중요한데, 처음엔 안전했던 서브에이전트가 실행 도중 읽은 파일이나 웹 콘텐츠에 의해 변조됐을 가능성을 검사합니다. 문제가 발견되면 결과에 보안 경고를 붙여 메인 에이전트에게 전달합니다.

공식 수치로 드러난 17%의 의미

Anthropic은 자사 직원들의 실제 Claude Code 사용 로그에서 위험하다고 판단된 과도한 행동 52건을 추출해 Auto Mode 분류기로 테스트했습니다. 결과가 공식 엔지니어링 문서에 그대로 공개됩니다.

단계 실제 트래픽 FPR
n=10,000
실제 위험행동 FNR
n=52
합성 탈취 FNR
n=1,000
Stage 1 (빠른 필터) 8.5% 6.6% 1.8%
Stage 1→2 (전체 파이프라인) 0.4% 17% 5.7%

FPR: 정상 작업을 잘못 차단하는 비율 / FNR: 위험 행동을 놓치는 비율 (출처: Anthropic Engineering, 2026.03.24)

💡 Anthropic 엔지니어링팀이 직접 남긴 해석이 솔직합니다: “17%가 받아들일 수 있는 수치인지는 무엇과 비교하느냐에 달려 있다. –dangerously-skip-permissions를 쓰고 있다면 상당한 개선이다. 하지만 직접 매 작업을 꼼꼼히 검토하던 사람에게는 오히려 후퇴일 수 있다.”

17%가 생각보다 높은 이유도 문서에 나옵니다. 분류기가 위험성을 맞게 인식했는데도 놓친 경우들은 대부분 “사용자가 과거에 비슷한 작업을 승인했다”는 맥락을 동의로 해석했기 때문입니다. “PR 정리해줘”라고 했을 때, 이전에 비슷한 git 작업을 승인한 적 있으면 force-push까지 커버된다고 분류기가 판단하는 식입니다. 실제론 그렇지 않은데도요.

이 패턴을 Anthropic은 “프롬프트 엔지니어링으로 고치려 했지만 득보다 실이 많았다”고 인정합니다. 지금 이 수치 그대로 출시한 이유입니다. 100% 막는다는 주장이 없습니다. 그 점은 솔직하게 평가합니다.

Pro·Max 사용자가 지금 당장 쓸 수 없는 이유

가장 많이 나오는 질문이 이겁니다. “Claude Pro 구독 중인데 왜 Auto Mode가 안 보여요?” 공식 발표에 답이 나와 있습니다.

⚠️ 현재 사용 가능한 플랜 (2026.03.24 기준)

  • Team 플랜 — 현재 리서치 프리뷰로 사용 가능 (관리자가 먼저 활성화 필요)
  • Enterprise 플랜 — 수일 내 확대 예정
  • API 플랜 — 수일 내 확대 예정
  • Pro / Max / Free미지원, 일정 미발표

출처: Anthropic 공식 블로그, 2026.03.24

모델 제한도 있습니다. Claude Sonnet 4.6과 Opus 4.6에서만 작동합니다. Haiku, Claude 3 계열, 그리고 Bedrock·Vertex·Foundry 같은 서드파티 제공자 경유 시에는 플랜과 관계없이 사용할 수 없습니다.

💡 Anthropic의 롤아웃 순서를 보면 패턴이 있습니다. 리서치 프리뷰는 항상 기업·팀 플랜 사용자를 먼저 대상으로 합니다. 분류기의 실제 오차를 팀 환경에서 먼저 쌓은 뒤 개인 플랜으로 확대하는 방식입니다. Claude Memory도 같은 경로를 밟았습니다. Pro 확대에는 최소 수 주가 걸린다고 보는 게 현실적입니다.

Team 플랜이지만 Auto Mode가 안 보인다면

공식 문서에서 4가지 조건을 모두 충족해야 Shift+Tab 사이클에 auto가 등장합니다. ① –enable-auto-mode 플래그로 시작, ② Team 플랜, ③ Claude Sonnet 4.6 또는 Opus 4.6 사용, ④ 관리자가 Claude Code 관리 설정에서 Auto mode 활성화. 하나라도 빠지면 사이클에 등장하지 않습니다. (출처: 공식 Permission Modes 문서)

기본 차단·허용 목록 — 직접 확인한 기준

분류기는 기본적으로 워킹 디렉토리와 git remote만 신뢰하고, 나머지는 모두 외부로 취급합니다. 팀 저장소에 push하는 것도 차단되는 경우가 생기는 게 이 때문입니다. 분류기가 그 저장소를 알지 못하기 때문입니다.

🚫 기본 차단 ✅ 기본 허용
curl | bash 같은 외부 코드 다운로드 후 실행 워킹 디렉토리 내 로컬 파일 작업
외부 엔드포인트로 민감 데이터 전송 lock 파일·manifest에 선언된 의존성 설치
프로덕션 배포 및 마이그레이션 .env 읽기 및 해당 서비스 API에 인증정보 전송
클라우드 스토리지 대량 삭제 읽기 전용 HTTP 요청
IAM 또는 리포 권한 변경 현재 브랜치 또는 Claude가 생성한 브랜치에 push
git push –force 또는 main 직접 push npm test 같은 좁은 범위의 기허용 규칙
세션 시작 전부터 존재하던 파일의 비가역적 삭제

출처: 공식 Permission Modes 문서 / claude auto-mode defaults 명령으로 전체 목록 확인 가능

Auto Mode에 진입하면 기존에 설정해둔 넓은 범위의 allow 규칙 일부가 자동으로 제거됩니다. Bash(*), Bash(python*), Bash(node*), 패키지 매니저 run 명령, Agent allow 규칙 등입니다. 이 규칙들이 살아있으면 분류기를 우회해서 바로 실행되기 때문입니다. Auto Mode를 나가면 원래대로 복구됩니다.

팀 저장소 push가 계속 차단된다면 autoMode.environment 설정에서 신뢰할 git org, 클라우드 버킷, 내부 서비스를 직접 등록해야 합니다. 분류기가 알아야 신뢰하는 구조입니다.

비용이 추가로 발생하는 구간과 그렇지 않은 구간

Auto Mode를 켜면 모든 작업에 분류기 비용이 추가된다고 생각하는 경우가 많습니다. 실제로는 그렇지 않습니다. 공식 문서에 구간이 명확하게 나뉩니다.

✅ 분류기 비용 없음

  • 워킹 디렉토리 내 파일 읽기
  • 워킹 디렉토리 내 파일 수정·편집
  • 텍스트 검색, 코드 탐색
  • 사용자의 allow/deny 규칙으로 즉시 결정되는 작업

💸 분류기 비용 발생

  • shell 명령어 (npm run, git push 등)
  • 네트워크 요청 (HTTP fetch 등)
  • 서브에이전트 생성 및 완료 시
  • 워킹 디렉토리 밖 파일 시스템 작업

분류기는 메인 세션과 동일한 방식으로 토큰이 청구됩니다. 각 검사에서 대화 이력 일부와 대기 중인 명령어가 분류기로 전달됩니다. 소요 지연(latency)도 각 분류기 검사마다 라운드트립이 추가됩니다. 순수하게 파일만 읽고 수정하는 작업이 많다면 추가 비용이 거의 없지만, shell 명령과 네트워크 호출이 많은 세션이라면 체감할 수 있는 수준이 됩니다.

💡 Stage 1과 Stage 2의 프롬프트 대부분이 캐시로 공유됩니다. Stage 2가 실행될 때 실제로 새로 소비되는 토큰은 Stage 1 대비 생각보다 적습니다. Stage 2가 작동하는 경우 자체가 전체 작업 중 일부이기 때문입니다.

Q&A 5가지

Q1. Auto Mode가 차단했는데 그 작업이 꼭 필요하다면 어떻게 하나요?

차단된 직후 Claude가 대안 접근을 시도합니다. 그래도 필요하다면 두 가지 방법이 있습니다. 첫째, autoMode.environment에 해당 리소스를 신뢰 목록으로 등록합니다. 둘째, 해당 작업만 별도로 수동 모드에서 직접 실행합니다. Shift+Tab으로 모드를 전환하면 됩니다. 단, 연속 3회 또는 세션당 총 20회 차단이 쌓이면 자동으로 수동 모드로 전환되고 이 임계치는 변경할 수 없습니다. (출처: 공식 Permission Modes 문서)
Q2. claude -p 비대화형 스크립트에서 Auto Mode를 쓰면 안 되나요?

쓸 수는 있지만 주의가 필요합니다. -p 플래그로 실행하는 비대화형 모드에서 분류기가 폴백을 트리거하면, 사용자에게 프롬프트를 띄울 UI가 없기 때문에 세션 전체가 즉시 중단됩니다. 대화형 세션과 달리 카운터를 리셋하거나 계속 진행할 방법이 없습니다. 스크립트 자동화에 쓸 때는 차단될 가능성이 있는 작업이 포함된 경우 충분히 테스트한 뒤 사용하는 게 낫습니다. (출처: 공식 Permission Modes 문서)
Q3. Cursor YOLO 모드와 실질적으로 다른 점이 있나요?

구조적으로 차이가 있습니다. Cursor YOLO는 모든 작업을 그냥 승인합니다. 안전 분류기도 없고, 프롬프트 인젝션 방어도 없습니다. Claude Code Auto Mode는 별도 분류기 모델이 각 tool call을 심사하고, CLAUDE.md 내용을 참조해 프로젝트 맥락에 맞는 판단을 내립니다. 분류기가 틀릴 수 있다는 한계는 공식적으로 인정하지만, 아예 없는 것과는 다릅니다. 어느 쪽이 낫냐보다 어떤 상황에 쓰냐가 더 중요합니다.
Q4. 클라우드 세션(claude.ai/code 웹)에서도 Auto Mode가 되나요?

되지 않습니다. claude.ai/code 웹 및 모바일에서 Anthropic 클라우드 VM으로 실행되는 세션은 Auto Mode가 지원되지 않습니다. 해당 환경에서는 Auto accept edits와 Plan mode만 선택 가능합니다. Remote Control(로컬 머신 연결) 세션에서도 Auto Mode는 제공되지 않습니다. 로컬 CLI 또는 VS Code 확장 기반 세션에서만 사용 가능합니다. (출처: 공식 Permission Modes 문서)
Q5. Auto Mode를 켜면 기존에 설정한 allow 규칙이 모두 사라지나요?

전부 사라지는 게 아닙니다. 범위가 넓은 allow 규칙만 자동으로 일시 제거됩니다. Bash(*), Bash(python*), Bash(node*), 패키지 매니저 run 명령, Agent 규칙이 대상입니다. 이 규칙들이 있으면 분류기를 건너뛰고 바로 실행되기 때문에 안전장치가 무의미해집니다. Bash(npm test)처럼 구체적인 좁은 범위 규칙은 그대로 유지됩니다. Auto Mode를 나가면 제거된 규칙이 모두 원래대로 복구됩니다. (출처: 공식 Permission Modes 문서)

마치며 — 쓸 만하지만, 어디서 쓰냐가 다입니다

Auto Mode에서 제일 중요한 한 줄은 Anthropic 엔지니어링팀이 직접 쓴 이 문장입니다. “–dangerously-skip-permissions를 이미 쓰고 있다면 이건 상당한 개선이다. 하지만 매 작업을 꼼꼼히 검토하던 사람에게는 오히려 후퇴일 수 있다.”

개발 브랜치 리팩토링, 새 기능 빌드·테스트 루프, 장시간 코드 탐색 — 이런 작업에서 일일이 승인 버튼을 누르는 피로를 줄이는 데는 실용적입니다. 반면 프로덕션 DB, IAM 권한, 운영 인프라가 관련된 작업은 지금도 직접 검토하는 게 낫습니다. 17%가 작지 않습니다.

Pro·Max 구독자라면 지금 당장은 쓸 수 없습니다. Team 플랜이라도 관리자가 활성화하지 않으면 나타나지 않습니다. 모델도 Sonnet 4.6·Opus 4.6만 됩니다. 조건을 먼저 확인하고 기대하는 편이 낫습니다.

주관적으로 보면, 리서치 프리뷰 단계에서 17% FNR을 공개하고 “이게 현재 수치”라고 밝힌 점이 인상적입니다. 완벽하다고 포장하지 않았습니다. 그 솔직함 덕분에 어느 작업에서 믿을 수 있고, 어느 작업에서는 여전히 직접 봐야 하는지 판단이 가능합니다.

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — Auto mode for Claude Code (https://claude.com/blog/auto-mode)
  2. Anthropic Engineering Deep Dive — Claude Code Auto Mode (https://www.anthropic.com/engineering/claude-code-auto-mode)
  3. Claude Code 공식 문서 — Permission Modes (https://code.claude.com/docs/en/permission-modes)
  4. The Verge — Anthropic’s Claude Code gets ‘safer’ auto mode (theverge.com)

본 포스팅은 2026년 4월 1일 작성되었습니다. Claude Code Auto Mode는 현재 리서치 프리뷰 단계로, 본 포스팅 작성 이후 서비스 정책·UI·기능·지원 플랜이 변경될 수 있습니다. 최신 정보는 공식 문서(code.claude.com)에서 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기