Claude Sonnet 4.6 / Opus 4.6 기준
리서치 프리뷰
Claude Code Auto mode,
안전하다고요? 이것부터 보세요
“이제 승인 버튼 안 눌러도 된다”는 말만 떠돌고 있는데, 공식 문서를 보면 얘기가 달라집니다. 특히 기존에 설정해 둔 권한 규칙이 Auto mode 진입 순간 조용히 사라진다는 건 거의 아무도 얘기를 안 하더라고요.
(실제 사용자 사례)
(Anthropic 공식 발표)
(Enterprise·API 곧 확대 예정)
승인 버튼 47번, 진짜 문제가 뭔지부터 짚고 갑니다
Claude Code Auto mode는 2026년 3월 24일 Anthropic이 리서치 프리뷰로 공개한 기능입니다. 한 개발자가 실제 작업 세션에서 Claude Code로부터 권한 승인 요청을 47번 받았고, 그 중 세 번은 이미 클릭한 뒤에야 화면을 읽었다고 밝혔습니다. (출처: Medium @rentierdigital, 2026.03.16) 이게 단순히 번거롭다는 문제가 아니라, 승인 버튼을 읽지 않고 누르는 습관이 생기면 오히려 안전장치가 없는 것과 같다는 게 핵심입니다.
Anthropic이 Auto mode를 내놓은 배경이 바로 이 지점입니다. “사람이 모든 액션을 검토한다”는 전제가 이미 실제 사용 현장에서는 무너져 있었고, 차라리 AI 분류기가 맥락을 보고 판단하는 게 낫다는 결론입니다. 승인 피로(permission fatigue)를 해소하려는 게 아니라, 읽지 않는 사람 대신 AI가 읽겠다는 설계 철학입니다.
단, 이 기능은 현재 Team 플랜 사용자에게 우선 제공되고, Enterprise·API 사용자 지원은 며칠 내 순차 확대 예정입니다. Claude Sonnet 4.6과 Claude Opus 4.6에서만 작동하며, Haiku 계열이나 AWS Bedrock·Google Vertex 같은 서드파티 제공자 환경에서는 쓸 수 없습니다. (출처: Anthropic 공식 문서 Permission Modes, 2026.03.24 기준)
Auto mode가 실제로 작동하는 방식
CLI에서는 claude --enable-auto-mode 플래그로 시작하거나, 세션 중 Shift+Tab으로 모드를 전환할 수 있습니다. VS Code 확장이나 Desktop 앱에서는 입력창 하단의 모드 선택기를 씁니다. Auto mode를 켜기 전에 “Allow dangerously skip permissions” 옵션을 활성화해야 Shift+Tab 사이클에 Auto가 나타납니다. (출처: Anthropic 공식 문서 Permission Modes)
액션이 실행되는 순서는 공식 문서에 고정된 4단계로 명시돼 있습니다. 첫째, 기존 allow/deny 규칙에 매칭되면 즉시 처리됩니다. 둘째, 작업 디렉터리 내 파일 읽기·편집처럼 위험도 낮은 액션은 자동 승인됩니다. 셋째, 나머지는 분류기(classifier)가 판단합니다. 넷째, 분류기가 막으면 Claude가 이유를 전달받고 대안을 시도합니다.
분류기는 Claude Sonnet 4.6 모델을 별도로 돌립니다. 즉, 메인 세션에 Opus 4.6을 쓰고 있더라도 분류기는 Sonnet 4.6에서 돌아갑니다. 이 분류기 호출이 토큰과 비용을 추가로 씁니다. 쉘 명령이나 네트워크 요청처럼 부수 효과가 있는 액션에서 주로 발생하고, 단순 파일 읽기나 작업 디렉터리 내 편집은 분류기를 거치지 않아 오버헤드가 없습니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
분류기는 대화 내용(사용자 메시지 + 도구 호출)만 봅니다. Claude의 응답 텍스트와 도구 결과(파일 내용, 웹 페이지 내용)는 분류기 입력에서 제외됩니다. 악성 파일이나 웹 페이지가 Claude에게 “이 명령 실행해”라고 유도해도, 분류기는 그 내용을 아예 보지 못합니다. 프롬프트 인젝션 공격이 분류기를 우회하지 못하도록 설계된 구조입니다. (출처: Anthropic 공식 문서 Permission Modes — How actions are evaluated)
활성화 순간 기존 규칙이 지워지는 이유
이 부분이 가장 놀라웠습니다. Auto mode에 진입하면 기존에 설정해 둔 일부 allow 규칙이 자동으로 제거됩니다. 제거되는 대상은 Bash(*)처럼 모든 쉘 명령을 허용하는 광범위 규칙, Bash(python*)·Bash(node*) 같은 와일드카드 스크립트 인터프리터 규칙, 패키지 매니저 실행 규칙, 그리고 모든 Agent allow 규칙입니다. (출처: Anthropic 공식 문서 Permission Modes — How actions are evaluated)
이유는 명확합니다. 광범위 allow 규칙이 살아있으면 분류기가 검토하기 전에 이미 명령이 실행돼 버립니다. 피해가 가장 큰 종류의 명령들을 분류기가 한 번도 보지 못하고 통과시키는 구조가 되는 거죠. 그래서 Auto mode는 진입 시 이 규칙들을 일시 제거하고, Bash(npm test)처럼 명령어가 정확히 고정된 좁은 규칙만 남깁니다. Auto mode를 나오면 제거된 규칙은 복원됩니다.
⚠️ 실무에서 확인해야 할 포인트
팀이 공유 프로젝트 설정(.claude/settings.json)에 광범위 Bash 규칙을 넣어 둔 경우, Auto mode 진입 시 그 규칙들이 세션 동안 비활성화됩니다. 팀원 중 누군가 Auto mode를 켜고 작업하다가 “왜 평소엔 되던 게 안 되지?”라는 상황이 생길 수 있습니다. Auto mode 사용 전 팀 내 allow 규칙 현황을 먼저 정리해 두는 게 좋습니다.
분류기가 막는 것과 통과시키는 것
분류기의 기본 규칙은 공식 문서에 그대로 나와 있습니다. 기본으로 막히는 액션과 기본으로 허용되는 액션을 직접 표로 정리했습니다.
| 기본 차단 (blocked by default) | 기본 허용 (allowed by default) |
|---|---|
| curl | bash 또는 클론된 스크립트 실행 | 작업 디렉터리 내 로컬 파일 조작 |
| 외부 엔드포인트로 민감 데이터 전송 | lock file·manifest에 선언된 의존성 설치 |
| 프로덕션 배포 및 마이그레이션 | .env 파일 읽고 해당 API에 자격증명 전달 |
| 클라우드 스토리지 대량 삭제 | 읽기 전용 HTTP 요청 |
| IAM 또는 저장소 권한 부여 | 시작 시 작업 중이던 브랜치 또는 Claude가 생성한 브랜치에 push |
| force push 또는 main에 직접 push | |
| 세션 시작 전부터 존재하던 파일 비가역적 삭제 |
(출처: Anthropic 공식 문서 Permission Modes — What the classifier blocks by default, 2026.03.24 기준)
중요한 점은 기본 차단 목록 전체를 확인하려면 claude auto-mode defaults 명령을 직접 실행해야 한다는 겁니다. 공식 문서는 “반드시 전체 목록을 복사한 뒤 수정하라”고 명시하며, soft_deny 항목을 단 하나만 추가해도 나머지 모든 기본 차단 규칙이 통째로 사라집니다.
💡 팀이 기업 인프라를 쓴다면 반드시 확인해야 하는 부분입니다
분류기는 기본적으로 작업 디렉터리와 해당 git 리포지토리의 configured remote만 신뢰합니다. 회사 GitHub 조직, S3 버킷, 내부 도메인은 전부 “외부 = 잠재적 데이터 탈취 대상”으로 분류됩니다. 회사 리포지토리에 push하려 했더니 Auto mode가 막는다면, 관리자가 autoMode.environment 설정에 신뢰 인프라를 등록하지 않아서입니다. (출처: Anthropic 공식 문서 Permissions — Configure the auto mode classifier)
초기 20%에서 시작하는 자동 승인, 이게 뭘 의미하는지
Auto mode를 처음 쓰면 약 20% 정도의 액션만 자동 승인됩니다. 사용 패턴이 쌓이면 50% 이상으로 올라갑니다. (출처: aihaven.com, Anthropic 발표 기반, 2026.03.25) 분류기가 개별 사용자의 행동 이력을 학습해서 신뢰 수준을 높여가는 구조입니다.
이 점이 실무에서 어떤 의미인지 계산해 보면 이렇습니다. 세션당 평균 50회 액션이 발생한다고 가정할 때, 처음에는 분류기가 약 40회 호출됩니다(파일 읽기·편집 제외 후). 분류기 1회 호출에 수백~수천 토큰이 추가로 소모되므로, 세션 초반에는 비용이 눈에 띄게 올라갑니다. 사용이 익숙해지면서 자동 승인율이 오르면 분류기 호출 횟수도 줄어듭니다.
또 하나 챙겨야 할 수치가 있습니다. Auto mode 중 분류기가 한 세션에서 연속 3회 또는 총 20회 차단하면 자동으로 Auto mode가 중단되고 기존 수동 승인 모드로 돌아옵니다. CLI에서는 알림이 표시되며, 다음 액션을 직접 승인하면 카운터가 리셋됩니다. 자동화 스크립트처럼 -p 플래그로 비대화형 모드를 쓴다면 그냥 세션이 종료됩니다. (출처: Anthropic 공식 문서 Permission Modes — When auto mode falls back)
기업 환경에서 조심해야 할 조건 하나
Team·Enterprise 플랜에서는 관리자가 Claude Code 관리자 설정에서 Auto mode를 활성화해야 팀원이 쓸 수 있습니다. 그리고 관리자가 disableAutoMode를 disable로 설정한 managed settings 파일을 배포하면 팀원이 CLI 플래그나 개인 설정으로 Auto mode를 켜는 걸 막을 수 있습니다.
서브에이전트를 쓰는 팀이라면 추가로 확인할 게 있습니다. Auto mode에서 서브에이전트가 실행될 때는 두 번 검토가 일어납니다. 서브에이전트 실행 직전(태스크 설명 검토)과 서브에이전트가 작업을 마친 후(전체 액션 히스토리 검토)입니다. 서브에이전트가 실행 중 악성 파일에 노출됐을 가능성을 마지막에 한 번 더 체크하는 구조입니다. (출처: Anthropic 공식 문서 Permission Modes — How auto mode handles subagents)
💡 보안 아키텍처 관점에서 bypassPermissions와 비교했을 때 차이가 납니다
공식 문서는 Auto mode를 bypassPermissions와 나란히 두고 “Auto는 분류기 검토가 있고, bypassPermissions는 아무 검토도 없다”고 명시합니다. bypassPermissions를 컨테이너나 VM처럼 격리된 환경에서만 쓰라고 권고하는 이유가 여기 있습니다. Auto mode는 그 사이 어딘가에 있지만, Anthropic 본인도 “수동 검토를 완전히 대체할 수는 없다”고 공식 문서에 적었습니다. 민감한 코드베이스에서는 이 점을 팀이 사전에 논의해야 합니다.
개인적으로 이 기능을 써 보면서 가장 아쉬웠던 건 Auto mode 시작 시 어떤 규칙이 제거됐는지 명시적으로 알려주지 않는다는 점입니다. claude auto-mode config 명령으로 현재 적용 중인 규칙을 확인할 수 있긴 하지만, 세션 중 동적으로 제거된 규칙은 별도로 추적해야 합니다. 이 부분은 Anthropic이 공식 이유를 밝히지 않은 설계 결정입니다.
Q&A
마치며 — 편한 건 맞는데, 어떤 편함인지 알고 써야 합니다
Claude Code Auto mode는 솔직히 방향은 옳다고 생각합니다. 47번 승인 버튼을 읽지 않고 누르는 게 더 위험하니, 차라리 AI가 맥락을 보고 판단하게 하는 편이 현실적입니다. 다만 “이제 안 봐도 된다”와 “대신 봐준다”는 다른 얘기입니다.
공식 문서가 명시하는 것처럼 Auto mode는 bypassPermissions보다는 안전하지만 수동 검토를 완전히 대체하지는 않습니다. 특히 기업 환경에서 회사 인프라를 신뢰 목록에 등록하지 않으면 자꾸 막히는 상황이 생기고, soft_deny 규칙 하나 잘못 건드리면 기본 차단 목록 전체가 날아가는 구조는 초반에 분명 함정이 될 수 있습니다.
리서치 프리뷰 딱지가 붙어있는 지금, 써보면서 /feedback으로 오탐·미탐을 적극 리포트하는 게 이 기능이 더 잘 작동하는 방향입니다. Anthropic이 분류기 기본 규칙을 어떻게 다듬어 나가는지 지켜볼 만한 업데이트입니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 30일 기준 공식 자료를 바탕으로 작성되었습니다. Claude Code Auto mode는 현재 리서치 프리뷰 단계로, 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.











댓글 남기기