Claude Code 최신 기준
Claude Code 음성 모드, 스페이스바 하나로 다 될까요?
2026년 3월 3일, Anthropic이 Claude Code에 음성 딕테이션 기능을 공식 탑재했습니다. /voice를 입력하고 스페이스바를 누르고 말하면 된다는데, 실제로는 되는 것과 안 되는 것이 꽤 명확히 나뉩니다. 공식 문서와 실사용 피드백을 교차해서 정리했습니다.
음성 모드, 실제로 어떻게 작동하나요?
사용법은 생각보다 간단합니다. 터미널에서 Claude Code를 실행한 뒤 /voice를 입력하면 음성 딕테이션 모드가 켜집니다. 그 다음부터는 스페이스바를 꾹 누르고 말하면 되고, 손을 떼면 전사가 확정됩니다. 공식 문서에 딱 이렇게 나옵니다. (출처: Anthropic 공식 docs.anthropic.com/en/docs/claude-code/voice-dictation, 2026.03)
💡 공식 문서와 실제 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
스페이스바를 꾹 누르는 시점부터 실제 녹음 시작까지 짧은 워밍업 시간이 있습니다. 워밍업 중엔 터미널에 keep holding이 표시되고, 그 사이에 스페이스 문자 1~2개가 입력창에 잠깐 찍혔다가 자동으로 지워집니다. “스페이스바 하나면 바로 된다”가 정확히 맞지 않는 이유가 이 워밍업 때문입니다.
녹음이 시작되면 하단 상태바에 실시간 파형이 보이고, 말한 내용이 프롬프트 입력창에 스트리밍 방식으로 흐릅니다. 텍스트를 절반쯤 타이핑한 상태에서 커서를 옮겨 음성을 삽입할 수도 있습니다. 키보드 입력을 덮어쓰는 게 아니라 커서 위치에 끼워 넣는 방식이라서, 말과 타이핑을 섞어 쓰는 게 자연스럽습니다.
전사 중엔 텍스트가 연한 색으로 보이다가, 스페이스바를 떼면 색이 진해지면서 확정됩니다. 코딩 관련 용어 인식에 최적화돼 있어서 OAuth, JSON, localhost 같은 단어는 잘 잡아줍니다. 현재 프로젝트명과 git 브랜치명도 인식 힌트로 자동 추가된다고 공식 문서에 명시돼 있습니다.
전사 토큰이 무료라는 말의 진짜 의미
“음성 전사 토큰은 완전 무료”라는 말이 여러 곳에서 나오는데, 이게 정확히 무슨 의미인지 짚고 넘어갈 필요가 있습니다. 말한 내용을 텍스트로 변환하는 전사(transcription) 과정 자체는 토큰 소모 없이 처리됩니다. 즉, 30초를 말해도, 5분을 말해도 전사 단계에서 Claude 토큰이 차감되지 않습니다.
💡 흔히 “음성 기능 = 추가 비용”으로 생각하는데, 이 경우엔 다릅니다.
전사가 끝나면 텍스트가 프롬프트 입력창에 담기고, 그 텍스트를 전송하는 순간부터는 일반 텍스트 프롬프트와 동일하게 토큰이 소모됩니다. 비용이 드는 건 전사 자체가 아니라, 전사된 텍스트가 Claude에게 전달되는 시점부터입니다. 전사 길이가 아무리 길어도 전사 단계 비용은 0입니다.
실용적으로 따져보면, 복잡한 버그를 30초 동안 설명하면 약 75단어 내외의 텍스트가 생성됩니다. 이걸 타이핑으로 입력할 때와 음성으로 입력할 때 Claude 측에서 처리하는 토큰 수는 완전히 동일합니다. 전사 단계가 무료이기 때문에, 음성을 많이 쓴다고 해서 월 청구서가 더 늘어나지는 않습니다.
다만 주의할 점은 있습니다. 음성 딕테이션은 스트리밍 음성-텍스트 서비스와 연결돼 작동하는데, 이 서비스 자체가 Claude.ai 계정 인증 기반으로 돌아갑니다. API 키만으로 사용하는 경우엔 이 무료 전사 서비스 자체에 접근할 수 없습니다. 이 조건에 대해선 다음 섹션에서 자세히 다룹니다.
API 키 쓰면 음성 모드가 아예 막힙니다
솔직히 말하면, 이 부분이 가장 많이 빠지는 함정입니다. 공식 문서에 아주 명확히 나와 있는데도 지나치기 쉽습니다. 음성 딕테이션 기능은 Anthropic API 키, Amazon Bedrock, Google Vertex AI, Microsoft Foundry로 인증된 환경에서는 작동하지 않습니다. (출처: docs.anthropic.com/en/docs/claude-code/voice-dictation — Requirements 항목, 2026.03)
⚠️ /voice 입력 시 나타나는 오류 메시지:
Voice mode requires a Claude.ai account
API 키로 로그인돼 있을 경우 이 메시지가 표시됩니다. /login을 실행해 Claude.ai 계정으로 전환해야 합니다.
기업 환경에서 Bedrock이나 Vertex를 통해 Claude Code를 쓰는 팀이라면 음성 모드를 쓸 수 없습니다. 이 제약은 음성 딕테이션이 Anthropic의 자체 스트리밍 음성-텍스트 서비스와 직접 연결되기 때문입니다. 제3자 클라우드 제공자를 통해 인증하면 이 서비스에 접근할 수 없는 구조입니다. Anthropic이 공식 답변을 별도로 내놓지 않은 부분이지만, 현재 문서상 예외는 없습니다.
그리고 원격 SSH 환경이나 웹 기반 Claude Code 세션에서도 음성 모드는 작동하지 않습니다. 마이크가 로컬에 연결돼 있어야 하기 때문입니다. WSL2(Windows 11 기준)는 WSLg가 포함돼 있어 작동하지만, Windows 10이나 WSL1이라면 네이티브 Windows 터미널에서 Claude Code를 실행해야 합니다.
Linux에서는 네이티브 오디오 모듈 로딩이 실패할 경우 ALSA utils의 arecord나 SoX의 rec로 폴백합니다. 둘 다 없으면 /voice 실행 시 설치 명령어가 출력됩니다.
OpenAI Codex와 무엇이 다를까요?
OpenAI의 Codex CLI도 2026년 2월 25일 버전 0.105.0 업데이트에서 스페이스바 누르기→말하기→전사 방식의 음성 딕테이션을 추가했습니다. Claude Code 음성 모드가 공개된 것보다 불과 6일 앞서 나온 거라서, 사실상 두 도구가 거의 동시에 같은 방향으로 움직인 셈입니다. (출처: Reddit r/codex, Codex 0.105.0 업데이트 로그, 2026.02.25)
| 항목 | Claude Code (2026.03.03) | OpenAI Codex 0.105.0 (2026.02.25) |
|---|---|---|
| 음성 엔진 | Anthropic 자체 서비스 | Wispr Voice 엔진 |
| Linux 지원 | ✅ 지원 (arecord / SoX 폴백) | ❌ 미지원 (macOS·Windows만) |
| 한국어 인식 | ✅ 한국어 포함 20개 언어 | 공식 언어 목록 별도 공개 없음 |
| 활성화 방법 | /voice 입력 후 자동 |
설정 파일에서 수동 활성화 필요 |
| 전사 비용 | 무료 | Wispr 자체 요금 구조 적용 가능성 |
| 세션 지속 | 켜두면 다음 세션도 유지 | 설정 파일 기반으로 유지 |
가장 눈에 띄는 차이는 Linux 지원 여부입니다. Codex의 Wispr 엔진은 현재 macOS와 Windows만 지원하는 반면, Claude Code는 Linux에서 arecord나 rec을 폴백으로 써서 작동합니다. Linux 환경에서 개발하는 팀이라면 Claude Code 음성 모드가 현재로선 유일한 선택지입니다.
Codex는 features.voice_transcription = true를 설정 파일에 추가해야 활성화되는 방식인 반면, Claude Code는 /voice만 입력하면 바로 쓸 수 있습니다. 진입 장벽이 낮습니다.
아직 핸즈프리가 아닌 이유
“이제 손 안 써도 된다”는 반응이 많은데, 실제로는 아직 완전한 핸즈프리가 아닙니다. 스페이스바를 떼면 전사가 확정되지만, 그걸 Claude에게 전송하려면 여전히 Enter 키를 눌러야 합니다. (출처: GitHub anthropics/claude-code 이슈 #33240, 2026.03.11)
💡 스페이스바 뗀 후 Enter가 필요한 이 흐름 때문에 생기는 현실적 제약이 있습니다.
말을 끝냈는데도 키보드로 손을 뻗어야 합니다. GitHub 이슈에서 개발자들이 “스페이스바 떼는 순간 자동 전송” 옵션을 요청하고 있고, 우선순위는 Medium으로 분류돼 있습니다. 현재로선 스페이스바 + Enter 조합이 최소 동작입니다.
그리고 변수명, URL, camelCase 표기, 언더스코어 명명 같은 코드 특유의 표현은 음성 인식 정확도가 아직 불안정합니다. 초기 사용자 피드백에서도 이 부분이 반복적으로 언급됩니다. “자연어 부분은 말로, 정밀한 코드 부분은 손으로”가 현실적인 사용 패턴입니다.
스페이스바 단축키는 변경할 수 있습니다. ~/.claude/keybindings.json에서 meta+k 같은 수식키 조합으로 바인딩을 바꾸면 워밍업 딜레이 없이 첫 키 입력부터 바로 녹음이 시작됩니다. 스페이스바 기본 바인딩의 워밍업이 불편하다면 이 방법이 낫습니다.
한국어로 말하면 어떻게 될까요?
공식 문서 기준으로 한국어는 지원 언어 20개 중 하나에 포함돼 있습니다(language: "korean" 또는 ko). 기본 딕테이션 언어는 영어로 설정돼 있어서, 한국어로 말하려면 먼저 /config에서 언어를 바꿔야 합니다. (출처: docs.anthropic.com/en/docs/claude-code/voice-dictation, 2026.03)
설정 파일에 직접 넣으려면 이렇게 하면 됩니다.
// ~/.claude/settings.json
{
"language": "korean"
}
한 가지 주의할 점은 language 설정이 딕테이션 언어와 Claude 응답 언어를 동시에 제어한다는 겁니다. 한국어로 딕테이션만 하고 응답은 영어로 받고 싶다면 이 설정 하나로는 분리가 안 됩니다. Anthropic이 이 둘을 별도로 분리하는 설정을 아직 제공하지 않고 있습니다.
또한 설정한 언어가 지원 목록에 없다면 /voice 실행 시 경고 메시지가 표시되고 딕테이션은 영어로 폴백됩니다. Claude의 텍스트 응답은 이 폴백에 영향 없이 설정된 언어로 그대로 나옵니다.
코딩 맥락에서 한국어를 말하면 함수 이름이나 변수처럼 영어 표기가 필요한 부분의 인식률이 떨어질 수 있습니다. “리팩토링 해줘”처럼 자연어 설명 위주로 말하고, 구체적인 변수명은 타이핑으로 보완하는 방식이 현실적입니다.
Q&A — 자주 묻는 것들
Q1. Claude Code 음성 모드, 무료 플랜에서도 됩니까?
Claude Code 자체를 쓰려면 Max, Team, 또는 Pro 플랜이 필요합니다. 음성 딕테이션만 떼어놓고 보면 전사 토큰 비용은 없지만, Claude Code를 실행하기 위한 플랜 조건은 그대로 적용됩니다. 무료 계정으로 Claude Code를 사용하는 경우는 현재 지원하지 않습니다.
Q2. 스페이스바 외에 다른 키로 바꿀 수 있나요?
~/.claude/keybindings.json에서 voice:pushToTalk 바인딩을 수정해서 바꿀 수 있습니다. meta+k 같은 수식키 조합으로 설정하면 워밍업 딜레이 없이 첫 키 입력부터 즉시 녹음이 시작됩니다. 단순 알파벳 키는 워밍업 중 타이핑으로 처리되기 때문에 피하는 게 좋습니다.
Q3. /voice를 켜두면 음성 대화 내용이 저장되나요?
음성이 텍스트로 전사된 내용은 일반 텍스트 프롬프트와 동일하게 대화 기록으로 저장됩니다. 음성 원본 오디오가 아니라 텍스트 전사본만 저장됩니다. 대화 기록 삭제는 기존 Claude Code 세션 삭제와 동일하게 처리됩니다.
Q4. /voice 설정이 다음 세션에도 유지됩니까?
네, 유지됩니다. 한 번 /voice를 실행해 활성화하면 voiceEnabled: true가 사용자 설정 파일에 자동으로 기록됩니다. 끄려면 다시 /voice를 실행하거나 설정 파일에서 voiceEnabled: false로 바꾸면 됩니다.
Q5. 음성이 Claude에게 전달될 때 응답 속도에 영향이 있나요?
음성 전사가 완료된 텍스트가 입력창에 들어간 이후로는 기존 텍스트 입력과 동일한 처리 흐름입니다. 전사 자체는 실시간 스트리밍 방식이라 말하는 동안 텍스트가 채워지지만, Claude에게 전송된 이후 응답 속도에는 영향이 없습니다. 음성을 쓴다고 Claude의 처리가 느려지거나 빨라지지는 않습니다.
마치며
Claude Code 음성 모드는 방향은 맞는데 아직 완성은 아닙니다. 전사 토큰 무료, 한국어 포함 20개 언어 지원, Linux 작동이라는 실용적인 조건은 갖췄습니다. 막상 써보면 가장 유용한 순간은 타이핑하기엔 너무 길고 복잡한 맥락을 설명할 때입니다. 복잡한 버그를 설명하거나, 설계 의도를 풀어놓거나, 리팩토링 방향을 큰 그림으로 지시할 때 말이 손보다 빠릅니다.
반대로 아직 음성이 불리한 구간도 분명합니다. API 키 환경에서는 아예 못 쓰고, 스페이스바 뗀 후 Enter를 눌러야 하는 흐름이 남아있고, 변수명·코드 표기는 타이핑이 훨씬 정확합니다.
기대했던 것과 달리 완전 핸즈프리는 아니지만, 말과 타이핑을 같은 프롬프트 안에서 섞어 쓸 수 있다는 점은 생각보다 자연스럽습니다. 써보고 싶다면 먼저 Claude.ai 계정으로 로그인돼 있는지 확인하고 /voice를 입력해보는 게 가장 빠른 방법입니다.
📎 본 포스팅 참고 자료
본 포스팅은 2026년 3월 23일 기준 공식 문서와 실사용 피드백을 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 Anthropic 공식 문서에서 확인하세요.







댓글 남기기