2026.03.13 기준 / Claude Code v2.1.76
IT/AI

Claude Code 1M 컨텍스트 직접 써봤습니다 — 달랐던 3가지

2026년 3월 13일, Anthropic이 Claude Code의 1M 토큰 컨텍스트를 정식 지원(GA)으로 전환했습니다. 이전까지는 베타에 프리미엄 요금이 붙었는데, GA가 되면서 달라진 게 생각보다 많습니다.

76%

Opus 4.6 MRCR 1M 정확도

18.5%

Sonnet 4.5 같은 테스트

0원

GA 전환 후 추가 요금

1M 컨텍스트가 GA로 바뀌면서 달라진 것

Claude Code의 1M 토큰 컨텍스트가 2026년 3월 13일에 정식 지원(GA, Generally Available)으로 전환됐습니다. 직전까지는 “베타”였는데, 베타와 GA의 차이가 단순한 라벨 교체가 아닙니다.

요금 구조가 바뀌었고, beta header가 사라졌으며, Rate Limit 정책도 통합됐습니다. 세 가지 변화 모두 Claude Code를 실제로 쓰는 사람에게 체감이 되는 내용입니다.

💡 공식 발표 원문과 실측 데이터를 같이 놓고 보니 이게 보였습니다

Anthropic의 공식 GA 발표에는 “추가 요금 없이”라는 표현이 나옵니다. 그런데 Claude Code Camp의 실측 실험 결과를 보면, 이전에는 200K 토큰을 1개라도 넘는 순간 입력 토큰 단가가 2배로 뛰었습니다. 베타 때 1M context를 “그냥 써도 된다”고 생각했던 분이라면 실제로는 요금 폭탄을 맞을 수도 있었다는 이야기입니다. (출처: claudecodecamp.com 실측 실험, 2026.03.13)

Opus 4.6은 2026년 2월 5일 출시 시점부터 1M 컨텍스트를 지원했습니다. Sonnet 4.6은 2월 17일 출시부터 동일하게 지원했습니다. 다만 둘 다 “베타 + 200K 초과 시 프리미엄 요금” 조건이었고, 3월 13일에야 그 조건이 사라진 겁니다. (출처: Anthropic 공식 릴리스 노트, docs.anthropic.com/en/release-notes/api)

▲ 목차로 돌아가기

요금 구조 — 3월 13일 전후가 이렇게 다릅니다

“1M 컨텍스트 쓰면 당연히 더 비싸겠지”라고 생각하는 게 자연스럽습니다. 3월 13일 이전에는 실제로 그랬습니다. 그런데 GA 전환 이후 API 요금이 달라졌습니다.

베타 시절(~3월 12일)의 요금 구조

구간	Opus 4.6 입력	Sonnet 4.6 입력
0~200K 토큰	$5/MTok	$3/MTok
200K 토큰 1개 초과 시	$10/MTok (2배)	$6/MTok (2배)

claudecodecamp.com의 실측 실험 계산에 따르면, 199,000 토큰 요청은 Opus 기준 $0.995인데, 201,000 토큰 요청은 $2.010입니다. 토큰 2,000개 차이에 요금이 2배 이상 뛰는 계단 구조였습니다. (출처: claudecodecamp.com, 2026.03.13)

GA 전환 후(3월 13일~) 요금 구조

모델	입력	출력	비고
Opus 4.6	$5/MTok	$25/MTok	전 범위 동일
Sonnet 4.6	$3/MTok	$15/MTok	전 범위 동일

(출처: Anthropic 공식 요금 문서, docs.anthropic.com/en/docs/about-claude/pricing)

900K 토큰 요청과 9K 토큰 요청이 토큰당 동일한 단가로 청구됩니다. 200K 구간을 넘어도 요금이 뛰지 않습니다.

Claude Code Max, Team, Enterprise 플랜 구독자에게는 추가 토큰 비용 자체가 발생하지 않습니다. 구독 플랜의 사용량 한도 안에서 1M 컨텍스트를 자유롭게 씁니다. Pro 플랜은 1M 컨텍스트 사용 시 추가 사용량이 필요할 수 있습니다.

▲ 목차로 돌아가기

Context Rot 수치로 보면 납득이 됩니다

“1M 컨텍스트 지원”이라는 문구를 보면 “이제 100만 토큰 넣어도 AI가 다 기억하겠구나”라고 생각하기 쉽습니다. 실제는 그렇지 않습니다.

AI 모델에는 ‘Context Rot’이라는 현상이 있습니다. 컨텍스트가 길어질수록 집중력이 흐려지는 현상인데, 1M 윈도우를 지원한다고 해서 이 문제가 자동으로 해결되는 게 아닙니다. 여기서 모델별 차이가 극명하게 갈립니다.

1M 8-needle MRCR v2 벤치마크 비교

100만 토큰 텍스트 속 8개 항목을 얼마나 정확히 찾아내는지 측정하는 테스트입니다.

모델	1M 정확도	비고
Claude Opus 4.6	76%	프론티어 모델 중 최고 (Anthropic 측정)
Gemini 3 Pro	26.3%	Anthropic 측정 기준
Claude Sonnet 4.5	18.5%	공식 발표 수치

(출처: Anthropic 공식 Claude Opus 4.6 발표, anthropic.com/news/claude-opus-4-6)

💡 같은 1M 윈도우인데 수치 차이가 4배 이상입니다

Sonnet 4.5와 Opus 4.6은 둘 다 1M 컨텍스트 윈도우를 지원하지만, 실제 1M 구간에서의 정보 검색 정확도는 76% 대 18.5%로 4배 이상 차이가 납니다. 컨텍스트 창이 크다는 것과 그 창을 제대로 쓸 수 있다는 것은 다른 이야기입니다.

claudecodecamp.com의 실측 실험에서도 비슷한 패턴이 나왔습니다. Opus 4.6은 400K까지 완벽한 정확도를 보였고 600K에서도 대부분 맞췄습니다. Sonnet 4.6의 공식 MRCR 수치는 아직 발표되지 않았습니다. Anthropic이 공식 수치를 내놓지 않은 상태라, Sonnet 4.6으로 700K 이상을 다룰 때는 주의가 필요합니다.

또 한 가지: 모델은 컨텍스트 앞부분과 뒷부분에 집중하고, 중간 부분을 상대적으로 소홀히 하는 경향이 있습니다. “Lost in the Middle”이라 불리는 현상인데, 중요한 정보일수록 컨텍스트의 앞이나 뒤에 배치하는 게 안전합니다.

▲ 목차로 돌아가기

Max 플랜에서 쓰는 방법 — 명령어 포함

Claude Code v2.1.75 이상에서 Max, Team, Enterprise 플랜을 쓰고 있다면 별도 설정 없이 이미 Opus 4.6의 1M 컨텍스트가 기본 활성화돼 있습니다. 확인하거나 명시적으로 전환하려면 아래 명령어를 씁니다.

모델 전환 명령어

# 1M 컨텍스트 Opus 4.6으로 전환
/model opus[1m]
# 또는 전체 모델 ID 사용
/model claude-opus-4-6[1m]
# Sonnet 4.6 1M (추가 사용량 필요)
/model sonnet[1m]
# 현재 설정 확인
/model

비활성화가 필요할 때 (환경변수)

기업 컴플라이언스 요건이나 비용 예측 가능성을 위해 1M 컨텍스트를 끄고 싶다면 아래 환경변수를 씁니다.

# 세션 단위 비활성화
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
claude
# settings.json 영구 설정
# ~/.claude/settings.json
{
"env": {
"CLAUDE_CODE_DISABLE_1M_CONTEXT": "1"
}
}

(출처: Claude Code 공식 환경변수 문서)

Compaction 임계값 조정

1M 컨텍스트 모델의 기본 Compaction 임계값은 95%, 즉 950K 토큰에서 자동 압축이 시작됩니다. 더 일찍 Compaction하고 싶다면 아래 환경변수로 조정합니다.

# 700K 토큰에서 Compaction 트리거
export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=70
# 또는 절대값 지정
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=700000

▲ 목차로 돌아가기

이럴 때 쓰고, 이럴 때는 안 씁니다

💡 “1M은 길게 대화할 때 유리하다”는 게 절반만 맞는 이유

claudecodecamp.com의 실측 데이터에 따르면 대부분의 Claude Code 세션은 Compaction 이전에 80~120K 수준에서 끝납니다. 200K에 도달하지 않아 1M 모델을 써도 요금 차이가 없습니다. 오히려 50~80회 대화 이후에는 초반의 탐색 과정이 쌓여서 모델의 집중력을 분산시킵니다. 이런 경우엔 /clear 후 새로 시작하는 게 낫습니다.

써야 할 때

대용량 코드베이스 단발 분석: 300개 파일 이상의 프로젝트 전체를 한 번에 올려 아키텍처 파악이 필요할 때. Compaction 없이 전체 파일을 한 번에 처리합니다.
레거시 코드 마이그레이션: 여러 파일에 걸친 일관성 있는 변경이 필요할 때, 1M 컨텍스트가 초반 논의와 결정을 끝까지 기억하게 해줍니다.
긴 에러 로그 + 소스 파일 동시 분석: 수만 줄짜리 로그 전체와 관련 소스를 함께 넣고 근본 원인을 찾을 때.
에이전트 팀 운용: Claude Code의 Agent Teams(리서치 프리뷰) 기능을 쓸 때 서브에이전트들의 보고를 통합하는 리더 세션에 1M이 유용합니다.

안 써도 되는 때

일상적인 Claude Code 세션: 대부분 80~120K에서 끝납니다. 1M 모델을 선택해도 달라지는 게 없습니다.
자리를 자주 비울 때: 캐시 TTL이 5분입니다. 500K 컨텍스트에서 캐시가 만료되면 첫 번째 응답까지 30초 이상 걸릴 수 있습니다.
Sonnet 4.5 사용자: MRCR 1M 정확도가 18.5%입니다. 2배 요금(베타 기준)을 내고도 컨텍스트를 제대로 못 쓰는 구조였습니다. GA 이후엔 요금 이슈가 사라졌지만, 여전히 Sonnet 4.5로 700K+ 작업은 권장하지 않습니다.

▲ 목차로 돌아가기

Bedrock과 Vertex AI에서는 다릅니다

Anthropic 직접 API 외에 AWS Bedrock이나 Google Vertex AI를 통해 Claude를 쓴다면 플랫폼별 제약을 확인해야 합니다.

플랫폼	처리량 제한	주의사항
Anthropic API	표준 계정 처리량 (Rate Limit 통합)	beta header 불필요. GA 표준 요금
AWS Bedrock	약 5 req/min 수준 (추정)	1M context는 Preview 티어. 계정·리전별 상이
Google Vertex AI	200 QPM, 2M input TPM (리전당)	us-east5, europe-west1, asia-southeast1 지원

Bedrock 처리량은 계정·리전별로 다릅니다. (Bedrock 처리량은 AWS 공식 문서의 별도 확인이 필요합니다)

AWS Bedrock에서 대규모 1M context 요청을 프로덕션 환경에서 돌린다면, 처리량 제약이 낮을 수 있습니다. Anthropic 직접 API 또는 Google Vertex AI를 먼저 검토하는 게 안전합니다.

▲ 목차로 돌아가기

Q&A

Claude Code Pro 플랜에서도 1M 컨텍스트를 쓸 수 있나요?

/model opus[1m]으로 선택은 가능하지만 Pro 플랜에서는 1M 컨텍스트 사용 시 추가 사용량이 차감됩니다. Max, Team, Enterprise 플랜과 달리 기본 포함이 아닙니다. API 직접 사용 시에는 플랜 무관하게 표준 요금이 적용됩니다. (출처: Anthropic 공식 가격 문서, 2026.03.13 기준)

Opus 4.6 vs Sonnet 4.6, 1M 컨텍스트에서 어떤 걸 써야 하나요?

Anthropic 공식 권장은 Sonnet 4.6으로 기본 작업을 하고, 복잡한 아키텍처 판단이나 다중 에이전트 코디네이션이 필요할 때만 Opus로 올리는 전략입니다. 1M 구간의 실측 정확도 차이가 크기 때문에(Opus 76% vs Sonnet 4.5 18.5%), 대용량 컨텍스트가 정확도에 직결되는 작업이라면 Opus를 씁니다. 또한 Opus 4.6만 최대 출력 토큰이 128K이고 Sonnet 4.6은 64K까지입니다. (출처: Anthropic 공식 모델 선택 가이드)

GA 전환 전에 베타로 1M 컨텍스트를 쓰던 코드는 변경해야 하나요?

Opus 4.6과 Sonnet 4.6을 쓴다면 변경할 필요 없습니다. beta header 없이 자동으로 동작합니다. 단, Sonnet 4나 Sonnet 4.5를 쓴다면 여전히 구 beta 방식(context-1m-2025-08-07 header + 프리미엄 요금)이 적용됩니다. 표준 요금 정책은 Opus 4.6과 Sonnet 4.6에만 해당됩니다. (출처: Anthropic 공식 컨텍스트 윈도우 문서, 2026.03.13 기준)

Compaction과 1M 컨텍스트, 어떤 게 더 나을까요?

대용량 코드베이스를 단발성으로 분석하는 게 목적이라면 1M 컨텍스트가 낫습니다. Compaction 없이 전체 파일을 유지합니다. 반면 대화가 긴 개발 세션이라면 80~120K에서 Compaction이 발생해도 정보 손실이 크지 않으며, 세션 초반의 탐색 내용이 쌓여서 집중력을 분산시킬 수 있어 /clear 후 재시작하는 게 나은 경우도 많습니다.

Agent Teams 기능이 뭔가요? 1M 컨텍스트와 어떤 관련이 있나요?

Agent Teams는 Opus 4.6 출시와 함께 Claude Code에 리서치 프리뷰로 추가된 기능입니다. 여러 서브에이전트를 동시에 돌려서 파일 분석, 코드 리뷰 등 읽기 중심 작업을 병렬로 처리합니다. 리더 에이전트가 서브에이전트 보고를 통합할 때 1M 컨텍스트가 있으면 Compaction 없이 전체 결과를 유지할 수 있어 시너지가 큽니다. CLAUDE_AUTOCOMPACT_PCT_OVERRIDE 환경변수는 메인 세션과 모든 서브에이전트에 동일하게 적용됩니다. (출처: Claude Code 공식 Agent Teams 문서)

▲ 목차로 돌아가기

마치며

Claude Code 1M 컨텍스트가 GA로 전환된 건 3월 13일이지만, 이것을 소개하는 한국어 포스팅이 많지 않습니다. 요약하면 세 가지입니다.

첫째, 3월 13일 이후로 API 사용 시 200K를 넘어도 요금이 뛰지 않습니다. 이전에는 201K 토큰 하나가 199K 대비 약 2배 요금이 나오는 구조였는데, 이 계단이 사라졌습니다.

둘째, 1M 윈도우를 지원한다는 것과 1M 구간에서 잘 작동한다는 건 다릅니다. Opus 4.6은 76%를 기록했지만 Sonnet 4.5는 18.5%에 그쳤습니다. 모델 선택이 중요합니다.

셋째, 대부분의 일상 세션은 1M이 필요하지 않습니다. 80~120K에서 Compaction이 발생하고 그 이상 쌓이면 오히려 집중력이 떨어집니다. 1M이 진짜 필요한 상황은 대용량 코드베이스를 한 번에 올리는 단발성 분석 또는 대형 에이전트 팀 세션입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 기능은 Claude Code v2.1.76 / 2026.03.22 기준이며, 최신 내용은 Anthropic 공식 문서에서 확인하세요.

Claude Code 1M 컨텍스트 직접 써봤습니다 — 달랐던 3가지

Claude Code 1M 컨텍스트 직접 써봤습니다 — 달랐던 3가지

1M 컨텍스트가 GA로 바뀌면서 달라진 것

요금 구조 — 3월 13일 전후가 이렇게 다릅니다

베타 시절(~3월 12일)의 요금 구조

GA 전환 후(3월 13일~) 요금 구조

Context Rot 수치로 보면 납득이 됩니다

1M 8-needle MRCR v2 벤치마크 비교

Max 플랜에서 쓰는 방법 — 명령어 포함

모델 전환 명령어

비활성화가 필요할 때 (환경변수)

Compaction 임계값 조정

이럴 때 쓰고, 이럴 때는 안 씁니다

써야 할 때

안 써도 되는 때

Bedrock과 Vertex AI에서는 다릅니다

Q&A

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude Code 1M 컨텍스트 직접 써봤습니다 — 달랐던 3가지

Claude Code 1M 컨텍스트 직접 써봤습니다 — 달랐던 3가지

1M 컨텍스트가 GA로 바뀌면서 달라진 것

요금 구조 — 3월 13일 전후가 이렇게 다릅니다

베타 시절(~3월 12일)의 요금 구조

GA 전환 후(3월 13일~) 요금 구조

Context Rot 수치로 보면 납득이 됩니다

1M 8-needle MRCR v2 벤치마크 비교

Max 플랜에서 쓰는 방법 — 명령어 포함

모델 전환 명령어

비활성화가 필요할 때 (환경변수)

Compaction 임계값 조정

이럴 때 쓰고, 이럴 때는 안 씁니다

써야 할 때

안 써도 되는 때

Bedrock과 Vertex AI에서는 다릅니다

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기