클로드 코드 100만 토큰: Pro도 된다 믿으면 막히는 이유

Published on

in

클로드 코드 100만 토큰: Pro도 된다 믿으면 막히는 이유

2026.03.13 기준
Claude Code · Opus 4.6 / Sonnet 4.6

클로드 코드 100만 토큰: Pro도 된다 믿으면 막히는 이유

2026년 3월 13일, Anthropic이 Claude Opus 4.6·Sonnet 4.6의 100만 토큰 컨텍스트 창을 정식 출시했습니다. 추가 요금도 없고, 코드 전체를 한 번에 올릴 수 있다는 소식이 퍼졌지만 — 가장 많이 쓰는 Pro 플랜은 자동 활성화가 안 됩니다. 그리고 쓸수록 비용이 쌓이는 구조도 그대로입니다. 무엇이 정말 바뀌었고, 무엇이 그대로인지를 공식 수치로 정리했습니다.

78.3%
MRCR v2 정확도
(Opus 4.6, 1M 토큰)
26.3%
Gemini 동일 테스트
(2M 창에도 불구하고)
15%↓
컨텍스트 압축
발생 감소율
$4.50
900K 토큰 세션
입력 비용 (Opus 4.6)

100만 토큰이 실제로 얼마나 큰 공간인가

클로드 코드 100만 토큰이라는 숫자가 뉴스 헤드라인을 장식했지만, 숫자 자체가 와닿지 않는 분이 많습니다. 1M 토큰은 영어 기준 약 75만 단어 분량으로, 해리포터 전 7권과 전쟁과 평화를 합친 것과 맞먹는 공간입니다. 코드로 환산하면 약 11만 줄, PDF 또는 이미지로는 최대 600장을 한 세션에 올릴 수 있습니다. (출처: Anthropic 공식 블로그, 2026.03.13)

이전까지 Claude Code는 최대 20만 토큰 기본 창을 유지했고, 그 이상을 올리면 자동 압축(compaction)이 시작되어 대화 초반의 맥락이 지워졌습니다. 대규모 코드베이스를 분석하거나 긴 에이전트 세션을 유지해야 할 때 개발자들이 가장 많이 겪은 불편이 바로 이 ‘강제 망각’입니다. 1M 창이 열리면서 이 압축 이벤트가 15% 감소했다고 Anthropic은 밝혔습니다. 즉, 3~4시간짜리 긴 코딩 세션에서 이전 결정이 지워지는 빈도가 줄어든 셈입니다.

💡 이 수치가 의미하는 것: 압축 이벤트 15% 감소는 단순 통계가 아닙니다. 대규모 리팩터링처럼 수십 개 파일이 맞물리는 작업에서 “처음에 결정한 설계 원칙”이 세션 말미까지 살아있을 가능성이 높아졌다는 뜻입니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)

다만, 공간이 늘어났다는 것이 곧 정확도가 유지된다는 뜻은 아닙니다. 이 점이 이번 업데이트에서 가장 중요한 논쟁 지점이며, 다음 섹션들에서 수치로 직접 확인합니다.

▲ 목차로 돌아가기

Pro 플랜은 왜 자동으로 안 켜지나

뉴스 제목만 읽으면 “Pro 플랜이라면 당연히 1M 토큰을 바로 쓸 수 있다”고 생각하기 쉽습니다. 하지만 Anthropic의 공식 GA 발표를 그대로 읽으면 다릅니다. Max, Team, Enterprise 플랜 사용자는 Opus 4.6에서 1M 컨텍스트가 자동으로 기본값이 되었지만, Pro 플랜은 Claude Code 내에서 /extra-usage 명령어를 직접 입력해야만 활성화됩니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)

이 차이가 만들어지는 이유는 비즈니스 전략에 있습니다. Pro 플랜 요금은 월 $20 수준이고 Max 플랜은 월 $100입니다. 긴 컨텍스트 세션은 입력 토큰 비용이 크게 올라가기 때문에, Anthropic 입장에서는 대용량 사용을 상위 플랜의 명확한 가치로 남기면서도 Pro 사용자에게는 선택지를 열어두는 구조를 선택한 것입니다.

⚠️ 실제로 확인해야 할 것: Pro 플랜으로 Claude Code를 쓰고 있다면, 아무리 긴 문서를 붙여 넣어도 압축이 일어납니다. 1M을 쓰고 싶다면 세션 안에서 /extra-usage를 먼저 입력해야 합니다. 그리고 이 명령어를 쓰면 추가 토큰 사용료가 발생할 수 있으므로 비용 모니터링을 함께 켜두는 것이 권장됩니다.

정리하면, Pro 플랜에서 “100만 토큰은 된다”는 것은 사실이지만 “자동으로 된다”는 것은 사실이 아닙니다. 이 미묘한 차이를 모른 채 대규모 작업을 시작했다가 중간에 압축이 발생해 맥락이 날아가는 경우가 실제로 보고되고 있습니다.

▲ 목차로 돌아가기

Gemini는 2M인데 Claude가 낫다고? 수치로 보는 진실

💡 이 섹션의 분석은 Anthropic 공식 GA 발표 수치와 Google 자체 모델 평가 카드 수치를 교차 비교한 결과입니다.

Gemini 3.1 Pro는 이미 200만 토큰 컨텍스트 창을 제공합니다. Claude의 두 배입니다. 그런데 실제 성능 테스트에서 결과가 역전됩니다. 핵심은 컨텍스트 창의 ‘크기’가 아니라 그 안에서 얼마나 정확하게 내용을 ‘찾아내는가’입니다.

MRCR v2(Multi-Round Coreference Resolution)는 수백만 자에 달하는 문서 안에 숨겨진 정보를 AI가 얼마나 정확하게 찾아내는지를 측정하는 벤치마크입니다. 8개의 단서를 모두 찾아야 점수로 인정되는 까다로운 기준입니다. 1M 토큰 기준으로 비교하면 다음과 같습니다.

MRCR v2 8-needle 1M 토큰 기준 비교 (출처: Anthropic GA 발표 2026.03.13, Google 모델 평가 카드)
모델 컨텍스트 창 MRCR v2 (1M 토큰) 비고
Claude Opus 4.6 1M 78.3% 프론티어 모델 최고
Gemini 3.1 Pro 2M 26.3% 창은 2배지만 정확도는 ⅓
Claude Sonnet 4.6 1M 유사 수준 Opus보다 소폭 낮음
이전 최고 Claude 18.5% Opus 4.6 대비 4.2배 향상

이 수치가 의미하는 바는 명확합니다. Gemini가 2M 토큰 창을 가지고 있어도, 1M 토큰 분량의 문서에서 핵심 정보를 찾아내는 능력은 Claude Opus 4.6의 3분의 1 수준에 불과합니다. 빈 창고가 아무리 커도 물건을 제자리에 두지 못하면 쓸모가 없는 것처럼, 컨텍스트 창이 넓다는 것이 곧 “잘 기억한다”는 뜻이 아닙니다.

한 가지 유의해야 할 점은, 78.3%라는 수치가 Anthropic 자체 발표에서 나온 것으로 독립적인 3자 검증은 아직 진행 중입니다. 그러나 Google의 자체 모델 평가 카드에서도 Gemini의 1M 토큰 구간 점수가 26.3%임이 확인되므로, 이 격차 자체는 한쪽의 주장이 아닌 양측 공식 자료에 기반한 교차 검증된 수치입니다. (출처: rdworldonline.com 보도, 2026.02.05)

▲ 목차로 돌아가기

GPT-5.4도 1M인데 가격 함정이 있다

💡 이 비교는 OpenAI Help Center 공식 요금 안내와 Claude 공식 가격 페이지를 교차한 결과입니다.

OpenAI GPT-5.4도 API에서 최대 100만 토큰을 지원합니다. 그러나 가격 구조가 다릅니다. GPT-5.4는 272,000 토큰을 초과하는 순간 해당 세션 전체에 대해 입력 2배, 출력 1.5배 요금이 적용됩니다. 초과분만 아니라 전체 세션에 소급 적용된다는 점이 핵심입니다. 즉, 271K 토큰짜리 요청과 300K 토큰짜리 요청의 비용이 거의 2배 차이가 나는 ‘절벽’ 구조입니다.

반면 Claude는 이번 GA 업데이트로 9K 토큰 요청과 900K 토큰 요청의 토큰당 단가를 동일하게 설정했습니다. Sonnet 4.6 기준 입력 $3/백만 토큰, Opus 4.6 기준 입력 $5/백만 토큰이 전 구간 동일하게 적용됩니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)

300K 토큰 세션 비용 예시 비교 (API 기준, 2026.03 기준)
모델 기본 단가 (입력) 300K 토큰 요청 비고
Claude Sonnet 4.6 $3 / 1M $0.90 단가 변동 없음
Claude Opus 4.6 $5 / 1M $1.50 단가 변동 없음
GPT-5.4 (API) $2.50 / 1M
→ 272K 초과 시 $5
약 $1.50
(2배 단가 적용)
세션 전체 소급
GPT-4.1 (API) $2 / 1M $0.60 단가 변동 없음

GPT-5.4 API가 얼핏 더 저렴해 보이지만 긴 세션에서는 청구서가 예측 불가능해집니다. 특히 에이전트 워크플로우처럼 토큰 사용이 세션 중에 급격히 늘어나는 시나리오에서는 달의 마지막 날에야 비용 폭탄을 확인하게 됩니다. Claude의 단일 단가는 이 불확실성을 제거합니다.

▲ 목차로 돌아가기

컨텍스트가 커질수록 비용이 폭증하는 구조

단가가 동일해도 세션이 길어질수록 총비용이 선형으로 증가하는 것은 막을 수 없습니다. Opus 4.6 기준 900,000 토큰 입력에 드는 비용만 계산해 보면 다음과 같습니다.

900,000 토큰 × $5 / 1,000,000 = $4.50 (입력만)
출력 토큰 가정 (평균 10만 토큰) × $25 / 1,000,000 = $2.50 (출력)
세션 합계 ≈ $7.00 / 1회

일회성 리서치나 대형 문서 분석이라면 이 정도 비용은 충분히 가치 있습니다. 하지만 이 세션을 하루에 10회 반복하는 에이전트 시스템이라면 월 비용은 약 $2,100(약 300만 원)에 달합니다. 개발자 커뮤니티에서 실제로 보고된 사례 중에는 Claude Code 내 AI 도구 호출 하나가 데이터베이스 전체를 끌어당겨 단일 세션에서 80만 토큰을 소비한 경우도 있습니다. (출처: Hacker News 커뮤니티 스레드, 2026.03.14)

Anthropic도 이 점을 인식하고 있습니다. Claude Code 공식 비용 관리 문서는 MCP 서버 사용 시 컨텍스트의 10%를 넘기지 않도록 tool search를 활용할 것을 권장하며, CLAUDE.md 파일 크기를 500토큰 이하로 유지하는 것이 비용 최적화에 유효하다고 명시하고 있습니다. (출처: code.claude.com/docs/ko/costs)

🔢 직접 계산해 보는 방법: Claude Code 세션 중 /cost 명령어를 입력하면 현재까지의 누적 비용과 API 호출 시간이 즉시 표시됩니다. 긴 세션 전에 한 번씩 확인하는 습관이 예상치 못한 청구를 막아줍니다.

결론적으로, 클로드 코드 100만 토큰은 “무조건 비싸진다”는 뜻도 아니고 “무조건 싸다”는 뜻도 아닙니다. 단가가 같아졌을 뿐, 더 많이 쓰면 더 많이 냅니다. 가장 달라진 점은 긴 세션에 ‘추가 페널티’가 없어졌다는 것, 그리고 그 덕분에 비용 예측이 가능해졌다는 것입니다.

▲ 목차로 돌아가기

실제로 이걸 어디에 써야 이득인가

Anthropic이 GA 발표에서 직접 인용한 실사용자 사례들을 분석하면 ‘1M 컨텍스트가 실제로 빛나는 시나리오’가 세 가지로 좁혀집니다.

① 대형 코드베이스 리뷰: 여러 파일에 걸친 대규모 diff를 한 세션에 넣어 교차 파일 종속성을 분석할 때입니다. 기존에는 200K 창에 맞추기 위해 파일을 잘라 넣어야 했고, 이 과정에서 파일 간 연결 고리가 끊어지는 경우가 많았습니다. Sekhsaria(Cognition AI)는 “전체 diff를 한 번에 넣자 더 간단하고 토큰 효율적인 하네스로 고품질 리뷰가 가능해졌다”고 밝혔습니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)

② 장기 에이전트 세션: Datadog, Braintrust, 데이터베이스, 소스 코드를 반복 검색하면서 버그를 추적하는 작업입니다. 이전에는 100K 토큰을 넘기면 압축이 시작돼 초반에 확인한 로그 내용이 사라졌습니다. Anton Biryukov(소프트웨어 엔지니어)는 “1M 창으로 검색, 재검색, 엣지 케이스 수집, 수정 제안을 단 하나의 윈도우에서 처리할 수 있게 됐다”고 했습니다.

③ 대용량 문서 분석: 100쪽짜리 계약서 5개를 한 번에 올려 여러 버전에 걸친 협상 흐름을 파악하거나, 수백 편의 논문을 단일 패스로 종합해 가설을 검증하는 연구 워크플로우입니다. 물리학 연구 기업 공동창업자 Dr. Alex Wissner-Gross는 “수백 편의 논문, 증명, 코드베이스를 단일 패스로 종합해 기초 연구를 획기적으로 가속화했다”고 밝혔습니다.

반면 단순 Q&A, 짧은 코드 스니펫 작성, 간단한 번역처럼 수만 토큰 이내에서 해결되는 작업에는 1M 컨텍스트가 오히려 과잉입니다. 컨텍스트 창 크기와 세션 비용은 비례하기 때문에, 짧은 작업에는 기본 20만 토큰 모드나 Haiku 같은 경량 모델을 사용하는 것이 비용 효율적입니다.

📌 한 줄 판단 기준: “내 작업이 하나의 파일이나 대화만으로 끝나는가?” — 그렇다면 기본 모드로 충분합니다. “여러 문서·파일·로그 사이를 오가며 맥락을 유지해야 하는가?” — 그때 1M 컨텍스트가 의미 있어집니다.

▲ 목차로 돌아가기

자주 묻는 5가지

Q1. 클로드 코드 100만 토큰은 무료 플랜에서도 쓸 수 있나요?
무료 플랜은 해당되지 않습니다. 100만 토큰 컨텍스트는 Claude Platform API, Claude Code Max·Team·Enterprise 플랜, 그리고 Amazon Bedrock·Google Vertex AI·Microsoft Azure Foundry를 통한 API 접근에서 지원됩니다. Pro 플랜은 /extra-usage 명령어로 활성화해야 하며, 추가 사용 비용이 발생할 수 있습니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)
Q2. 1M 토큰을 다 쓰면 어떻게 되나요?
컨텍스트 창이 한계에 도달하면 자동 압축(context compaction)이 발생합니다. Claude Code는 오래된 대화를 자동으로 요약해 공간을 확보합니다. 이 과정에서 초반의 세부 사항 일부가 손실될 수 있습니다. Claude Code 세션 하단의 상태 표시줄에서 현재 컨텍스트 창 사용량을 실시간으로 확인할 수 있으며, /cost로 비용도 함께 조회됩니다.
Q3. Gemini가 2M 토큰인데 왜 Claude를 써야 하나요?
컨텍스트 창의 크기와 그 안에서 정보를 얼마나 정확하게 찾아내는지는 다른 문제입니다. MRCR v2 벤치마크에서 Claude Opus 4.6은 1M 토큰 기준 78.3%를 기록한 반면 Gemini는 26.3%에 그쳤습니다. 2M 창을 가지고 있어도 1M 분량의 문서에서 핵심 정보를 놓칠 확률이 세 배 이상 높습니다. 텍스트 중심의 정밀한 문서 분석이나 코드베이스 작업이라면 Claude가 유리하고, 오디오·영상 등 다양한 미디어 타입을 함께 다뤄야 한다면 Gemini의 강점이 두드러집니다.
Q4. 이전에 long-context 베타 헤더를 사용하던 코드가 있는데, 수정해야 하나요?
수정하지 않아도 됩니다. Anthropic은 이미 베타 헤더를 보내고 있는 경우 해당 헤더를 무시(ignored)하도록 처리했습니다. 200K 토큰을 초과하는 요청이 이제 자동으로 처리됩니다. 단, 코드를 정리할 때 해당 헤더를 제거해도 동작에 영향을 주지 않습니다. (출처: Anthropic 1M Context GA 블로그, 2026.03.13)
Q5. 컨텍스트 창이 길어지면 응답 속도가 느려지나요?
일반적으로 입력 토큰이 많을수록 첫 응답까지의 대기 시간(latency)이 길어집니다. 이는 모든 AI 모델에 공통적인 특성입니다. 속도가 중요한 실시간 상호작용이나 대화형 인터페이스에서는 Claude Haiku 4.5처럼 더 가벼운 모델을 선택하는 것이 낫습니다. 1M 컨텍스트는 속도보다 정확성과 맥락 유지가 우선인 배치 작업, 분석, 에이전트 워크플로우에 적합합니다.

▲ 목차로 돌아가기

마치며

클로드 코드 100만 토큰 정식 출시는 분명히 의미 있는 변화입니다. 추가 요금 없이 긴 세션을 유지할 수 있게 됐고, 1M 토큰 구간에서의 정확도 역시 경쟁 모델 대비 명확한 우위가 수치로 확인됩니다. 그러나 이 변화가 “모든 플랜에서 자동으로 무조건 좋아졌다”는 의미는 아닙니다.

Pro 플랜은 여전히 수동 활성화가 필요하고, 대형 세션은 여전히 상당한 비용이 발생합니다. 컨텍스트 창이 넓어졌다고 해서 긴 세션 설계의 필요성이 사라지는 것도 아닙니다. 오히려 더 큰 창이 열릴수록, 얼마나 정제된 입력을 넣느냐가 결과의 품질과 비용을 동시에 좌우하게 됩니다.

개인적인 관점을 더하자면, 이번 GA 발표에서 가장 주목할 대목은 1M이라는 숫자보다 MRCR v2에서의 78.3% 대 경쟁사 26.3%라는 격차입니다. 이것은 단순히 Anthropic이 벤치마크를 잘 잡은 것이 아니라, 긴 문서를 다루는 실제 작업에서의 신뢰도 차이를 보여주는 수치입니다. 더 큰 창을 가졌어도 중요한 내용을 놓친다면, 긴 세션은 오히려 잘못된 결론을 더 확신하게 만드는 위험 요소가 될 수 있습니다.

2026년 현재 AI 모델 경쟁은 숫자 경쟁이 아닌 신뢰도 경쟁으로 이동하고 있습니다. 클로드 코드 100만 토큰은 그 흐름에서 의미 있는 한 걸음입니다. 단, 그 가치를 온전히 누리려면 어떤 플랜인지, 어떤 작업에 쓰는지를 먼저 확인해야 합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — 1M Context GA 발표 (2026.03.13): https://claude.com/blog/1m-context-ga
  2. Anthropic 공식 뉴스 — Introducing Claude Sonnet 4.6 (2026.02.17): https://www.anthropic.com/news/claude-sonnet-4-6
  3. Claude Code 공식 비용 관리 문서: https://code.claude.com/docs/ko/costs
  4. rdworldonline.com — Claude Opus 4.6 1M Context 분석 (2026.02.05): 원문 보기
  5. AIMultiple — Best LLMs for Extended Context Windows 2026: https://aimultiple.com/ai-context-window
  6. OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT: 원문 보기

본 포스팅은 2026년 3월 17일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 특히 AI 서비스는 업데이트 주기가 빠르므로 최신 정보는 Anthropic 공식 웹사이트(anthropic.com)에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기