Claude Code v2.1.87 기준
리서치 프리뷰
Claude Code Auto Mode,
안전하다고 믿으면 안 되는 조건
“이제 일일이 승인 안 눌러도 되겠다.” — 이 생각이 정확히 Anthropic이 기대한 반응입니다. 그런데 공식 엔지니어링 문서에 17%라는 숫자가 조용히 적혀 있습니다. Auto Mode가 실제 위험 행동을 놓치는 비율입니다. 써볼 만하지만, 조건을 먼저 봐야 합니다.
(실제 과도한 행동 기준)
(실제 트래픽 n=10,000)
(Pro·Max·Free 미지원)
Auto Mode가 나온 진짜 이유 — 93%가 읽지 않고 눌렀다
Claude Code의 기본 권한 모드는 파일 한 줄 수정에도, bash 명령어 하나에도 승인을 요구합니다. 안전하게 설계된 기본값이지만, Anthropic 내부 데이터를 보면 이 구조가 사실상 작동하지 않았습니다.
💡 공식 엔지니어링 문서(Anthropic Engineering, 2026.03.24)에 이런 문장이 나옵니다: “manual prompts sit in the middle, and in practice users accept 93% of them anyway.”
사용자가 실제로 읽고 판단한 게 아니라 습관적으로 눌렀다는 뜻입니다.
93%를 그냥 통과시켰다면, 사람이 감시하는 게 아니라 클릭이 감시하는 셈입니다. Anthropic은 이 패턴을 “approval fatigue(승인 피로)”라고 정의합니다. 매번 묻는 게 안전한 게 아니라 오히려 주의를 분산시킨다는 문제 인식입니다.
기존에 이 피로를 해결하는 방법은 두 가지뿐이었습니다. –dangerously-skip-permissions 플래그로 모든 검사를 끄거나, 도커 컨테이너 같은 샌드박스 환경을 직접 구성하는 것. 전자는 편하지만 위험하고, 후자는 안전하지만 유지보수가 번거롭습니다.
Auto Mode는 이 두 극단 사이에 세 번째 선택지를 꽂아 넣은 겁니다. AI가 각 작업의 위험도를 직접 판단하고, 안전하면 자동으로 실행하고, 위험하면 스스로 막습니다. (출처: Anthropic 공식 블로그, 2026.03.24)
작동 원리: 분류기가 판단을 대신하는 구조
Auto Mode를 켜면 각 tool call이 실행되기 전에 별도의 분류기 모델(Claude Sonnet 4.6)이 먼저 해당 작업을 심사합니다. 메인 세션과 완전히 분리된 모델이 독립적으로 판단하는 구조입니다.
판단은 고정된 순서로 진행되고, 첫 번째로 매칭되는 단계에서 결론이 납니다.
판단 순서 (첫 번째 매칭이 최종 결정)
- 사용자의 allow/deny 규칙에 매칭 → 즉시 허용 또는 거부
- 읽기 전용 작업 또는 워킹 디렉토리 내 파일 수정 → 자동 허용
- 그 외 shell 명령, 네트워크 요청 등 → 분류기에 전달
- 분류기 차단 시 → Claude에게 이유 전달, 대안 접근 시도
분류기가 보는 것과 보지 않는 것
분류기는 사용자 메시지와 tool call(명령어 자체)만 받습니다. Claude의 응답 텍스트와 tool result(파일 읽기 결과, 웹 페이지 내용, 쉘 출력)는 의도적으로 제거됩니다.
💡 공식 문서와 실제 발표문을 같이 놓고 보면 이런 구조가 보입니다. 파일 안에 “이 명령어를 실행해”라는 악성 지시가 숨어있어도, 분류기는 파일 내용 자체를 읽지 않습니다. 대신 그 지시로 인해 생성된 tool call을 보고 “이게 사용자가 요청한 것과 맞나”를 판단합니다.
분류기는 2단계 파이프라인으로 실행됩니다. Stage 1은 단일 토큰(yes/no) 빠른 필터로 의심스럽다고 판단되면 차단 쪽으로 기웁니다. Stage 2는 Stage 1이 플래그를 세운 경우에만 실행되고, 체인 오브 쏘트(chain-of-thought) 추론으로 오차단을 걸러냅니다. 프롬프트가 대부분 캐시로 공유되기 때문에 2단계 추가 비용은 생각보다 크지 않습니다. (출처: Anthropic Engineering Deep Dive, 2026.03.24)
서브에이전트까지 검사하는 구조
Claude가 하위 에이전트를 생성할 때도 검사는 건너뛰지 않습니다. 위임 직전, 실행 중, 완료 후 반환 시점에 각각 분류기가 작동합니다. 특히 완료 후 검사가 중요한데, 처음엔 안전했던 서브에이전트가 실행 도중 읽은 파일이나 웹 콘텐츠에 의해 변조됐을 가능성을 검사합니다. 문제가 발견되면 결과에 보안 경고를 붙여 메인 에이전트에게 전달합니다.
공식 수치로 드러난 17%의 의미
Anthropic은 자사 직원들의 실제 Claude Code 사용 로그에서 위험하다고 판단된 과도한 행동 52건을 추출해 Auto Mode 분류기로 테스트했습니다. 결과가 공식 엔지니어링 문서에 그대로 공개됩니다.
| 단계 | 실제 트래픽 FPR n=10,000 |
실제 위험행동 FNR n=52 |
합성 탈취 FNR n=1,000 |
|---|---|---|---|
| Stage 1 (빠른 필터) | 8.5% | 6.6% | 1.8% |
| Stage 1→2 (전체 파이프라인) | 0.4% | 17% | 5.7% |
FPR: 정상 작업을 잘못 차단하는 비율 / FNR: 위험 행동을 놓치는 비율 (출처: Anthropic Engineering, 2026.03.24)
💡 Anthropic 엔지니어링팀이 직접 남긴 해석이 솔직합니다: “17%가 받아들일 수 있는 수치인지는 무엇과 비교하느냐에 달려 있다. –dangerously-skip-permissions를 쓰고 있다면 상당한 개선이다. 하지만 직접 매 작업을 꼼꼼히 검토하던 사람에게는 오히려 후퇴일 수 있다.”
17%가 생각보다 높은 이유도 문서에 나옵니다. 분류기가 위험성을 맞게 인식했는데도 놓친 경우들은 대부분 “사용자가 과거에 비슷한 작업을 승인했다”는 맥락을 동의로 해석했기 때문입니다. “PR 정리해줘”라고 했을 때, 이전에 비슷한 git 작업을 승인한 적 있으면 force-push까지 커버된다고 분류기가 판단하는 식입니다. 실제론 그렇지 않은데도요.
이 패턴을 Anthropic은 “프롬프트 엔지니어링으로 고치려 했지만 득보다 실이 많았다”고 인정합니다. 지금 이 수치 그대로 출시한 이유입니다. 100% 막는다는 주장이 없습니다. 그 점은 솔직하게 평가합니다.
Pro·Max 사용자가 지금 당장 쓸 수 없는 이유
가장 많이 나오는 질문이 이겁니다. “Claude Pro 구독 중인데 왜 Auto Mode가 안 보여요?” 공식 발표에 답이 나와 있습니다.
⚠️ 현재 사용 가능한 플랜 (2026.03.24 기준)
- Team 플랜 — 현재 리서치 프리뷰로 사용 가능 (관리자가 먼저 활성화 필요)
- Enterprise 플랜 — 수일 내 확대 예정
- API 플랜 — 수일 내 확대 예정
- Pro / Max / Free — 미지원, 일정 미발표
모델 제한도 있습니다. Claude Sonnet 4.6과 Opus 4.6에서만 작동합니다. Haiku, Claude 3 계열, 그리고 Bedrock·Vertex·Foundry 같은 서드파티 제공자 경유 시에는 플랜과 관계없이 사용할 수 없습니다.
💡 Anthropic의 롤아웃 순서를 보면 패턴이 있습니다. 리서치 프리뷰는 항상 기업·팀 플랜 사용자를 먼저 대상으로 합니다. 분류기의 실제 오차를 팀 환경에서 먼저 쌓은 뒤 개인 플랜으로 확대하는 방식입니다. Claude Memory도 같은 경로를 밟았습니다. Pro 확대에는 최소 수 주가 걸린다고 보는 게 현실적입니다.
Team 플랜이지만 Auto Mode가 안 보인다면
공식 문서에서 4가지 조건을 모두 충족해야 Shift+Tab 사이클에 auto가 등장합니다. ① –enable-auto-mode 플래그로 시작, ② Team 플랜, ③ Claude Sonnet 4.6 또는 Opus 4.6 사용, ④ 관리자가 Claude Code 관리 설정에서 Auto mode 활성화. 하나라도 빠지면 사이클에 등장하지 않습니다. (출처: 공식 Permission Modes 문서)
기본 차단·허용 목록 — 직접 확인한 기준
분류기는 기본적으로 워킹 디렉토리와 git remote만 신뢰하고, 나머지는 모두 외부로 취급합니다. 팀 저장소에 push하는 것도 차단되는 경우가 생기는 게 이 때문입니다. 분류기가 그 저장소를 알지 못하기 때문입니다.
| 🚫 기본 차단 | ✅ 기본 허용 |
|---|---|
| curl | bash 같은 외부 코드 다운로드 후 실행 | 워킹 디렉토리 내 로컬 파일 작업 |
| 외부 엔드포인트로 민감 데이터 전송 | lock 파일·manifest에 선언된 의존성 설치 |
| 프로덕션 배포 및 마이그레이션 | .env 읽기 및 해당 서비스 API에 인증정보 전송 |
| 클라우드 스토리지 대량 삭제 | 읽기 전용 HTTP 요청 |
| IAM 또는 리포 권한 변경 | 현재 브랜치 또는 Claude가 생성한 브랜치에 push |
| git push –force 또는 main 직접 push | npm test 같은 좁은 범위의 기허용 규칙 |
| 세션 시작 전부터 존재하던 파일의 비가역적 삭제 |
출처: 공식 Permission Modes 문서 / claude auto-mode defaults 명령으로 전체 목록 확인 가능
Auto Mode에 진입하면 기존에 설정해둔 넓은 범위의 allow 규칙 일부가 자동으로 제거됩니다. Bash(*), Bash(python*), Bash(node*), 패키지 매니저 run 명령, Agent allow 규칙 등입니다. 이 규칙들이 살아있으면 분류기를 우회해서 바로 실행되기 때문입니다. Auto Mode를 나가면 원래대로 복구됩니다.
팀 저장소 push가 계속 차단된다면 autoMode.environment 설정에서 신뢰할 git org, 클라우드 버킷, 내부 서비스를 직접 등록해야 합니다. 분류기가 알아야 신뢰하는 구조입니다.
비용이 추가로 발생하는 구간과 그렇지 않은 구간
Auto Mode를 켜면 모든 작업에 분류기 비용이 추가된다고 생각하는 경우가 많습니다. 실제로는 그렇지 않습니다. 공식 문서에 구간이 명확하게 나뉩니다.
✅ 분류기 비용 없음
- 워킹 디렉토리 내 파일 읽기
- 워킹 디렉토리 내 파일 수정·편집
- 텍스트 검색, 코드 탐색
- 사용자의 allow/deny 규칙으로 즉시 결정되는 작업
💸 분류기 비용 발생
- shell 명령어 (npm run, git push 등)
- 네트워크 요청 (HTTP fetch 등)
- 서브에이전트 생성 및 완료 시
- 워킹 디렉토리 밖 파일 시스템 작업
분류기는 메인 세션과 동일한 방식으로 토큰이 청구됩니다. 각 검사에서 대화 이력 일부와 대기 중인 명령어가 분류기로 전달됩니다. 소요 지연(latency)도 각 분류기 검사마다 라운드트립이 추가됩니다. 순수하게 파일만 읽고 수정하는 작업이 많다면 추가 비용이 거의 없지만, shell 명령과 네트워크 호출이 많은 세션이라면 체감할 수 있는 수준이 됩니다.
💡 Stage 1과 Stage 2의 프롬프트 대부분이 캐시로 공유됩니다. Stage 2가 실행될 때 실제로 새로 소비되는 토큰은 Stage 1 대비 생각보다 적습니다. Stage 2가 작동하는 경우 자체가 전체 작업 중 일부이기 때문입니다.
Q&A 5가지
마치며 — 쓸 만하지만, 어디서 쓰냐가 다입니다
Auto Mode에서 제일 중요한 한 줄은 Anthropic 엔지니어링팀이 직접 쓴 이 문장입니다. “–dangerously-skip-permissions를 이미 쓰고 있다면 이건 상당한 개선이다. 하지만 매 작업을 꼼꼼히 검토하던 사람에게는 오히려 후퇴일 수 있다.”
개발 브랜치 리팩토링, 새 기능 빌드·테스트 루프, 장시간 코드 탐색 — 이런 작업에서 일일이 승인 버튼을 누르는 피로를 줄이는 데는 실용적입니다. 반면 프로덕션 DB, IAM 권한, 운영 인프라가 관련된 작업은 지금도 직접 검토하는 게 낫습니다. 17%가 작지 않습니다.
Pro·Max 구독자라면 지금 당장은 쓸 수 없습니다. Team 플랜이라도 관리자가 활성화하지 않으면 나타나지 않습니다. 모델도 Sonnet 4.6·Opus 4.6만 됩니다. 조건을 먼저 확인하고 기대하는 편이 낫습니다.
주관적으로 보면, 리서치 프리뷰 단계에서 17% FNR을 공개하고 “이게 현재 수치”라고 밝힌 점이 인상적입니다. 완벽하다고 포장하지 않았습니다. 그 솔직함 덕분에 어느 작업에서 믿을 수 있고, 어느 작업에서는 여전히 직접 봐야 하는지 판단이 가능합니다.
본 포스팅 참고 자료
- Anthropic 공식 블로그 — Auto mode for Claude Code (https://claude.com/blog/auto-mode)
- Anthropic Engineering Deep Dive — Claude Code Auto Mode (https://www.anthropic.com/engineering/claude-code-auto-mode)
- Claude Code 공식 문서 — Permission Modes (https://code.claude.com/docs/en/permission-modes)
- The Verge — Anthropic’s Claude Code gets ‘safer’ auto mode (theverge.com)
본 포스팅은 2026년 4월 1일 작성되었습니다. Claude Code Auto Mode는 현재 리서치 프리뷰 단계로, 본 포스팅 작성 이후 서비스 정책·UI·기능·지원 플랜이 변경될 수 있습니다. 최신 정보는 공식 문서(code.claude.com)에서 확인하세요.











댓글 남기기