Claude Opus 4.6 1M 토큰, 요금 계산해보니 3가지 달랐습니다

Published on

in

Claude Opus 4.6 1M 토큰, 요금 계산해보니 3가지 달랐습니다

2026.03.13 정책 업데이트 기준
Claude Opus 4.6

Claude Opus 4.6 1M 토큰, 요금 계산해보니 3가지 달랐습니다

“200K 넘으면 요금이 2배”라고 알고 계신 분들 많습니다. 실제로 2026년 2월 출시 초기에는 그랬습니다. 그런데 3월 13일 이후엔 다릅니다. Anthropic 공식 문서에 변경 내용이 올라와 있고, 요금 구조가 꽤 의미 있게 바뀌었습니다. 직접 계산해봤습니다.

1M
토큰 컨텍스트 GA
$0
200K 초과 추가요금
6x
Fast Mode 배율

2월 출시 때와 3월 이후, 요금이 얼마나 달랐나

Claude Opus 4.6은 2026년 2월 5일 출시됐습니다. 그때는 1M 토큰 컨텍스트 윈도우가 베타로만 제공됐고, 프롬프트 길이가 200K를 넘는 순간 요금이 두 배로 뛰었습니다. 입력 기준 $5/MTok에서 $10/MTok, 출력은 $25/MTok에서 $37.50/MTok으로 올라갔습니다 (출처: Anthropic 공식 릴리스 노트, 2026.02.05).

그런데 2026년 3월 13일, Anthropic이 이 초과 요금을 완전히 폐지했습니다. Opus 4.6과 Sonnet 4.6 모두 1M 토큰 컨텍스트가 정식 출시(GA)됐고, 200K든 900K든 토큰당 요율이 동일하게 적용됩니다 (출처: Anthropic 공식 가격 페이지, 2026.03.13 업데이트).

💡 공식 가격 문서와 출시 공지를 같이 놓고 보니 이런 차이가 보였습니다

출시 당일 200K 초과 프리미엄이 적용됐던 기간은 약 36일이었습니다. 이 기간에 API를 적극적으로 쓴 팀은 같은 작업을 최대 2배 더 냈습니다. 3월 13일 이후로 같은 작업의 비용이 절반으로 내려간 셈입니다.

한국 커뮤니티에서도 2월 초 “100불 맥스 요금제에서 평소보다 한도가 2배 빠르게 소진된다”는 글이 많았습니다 (클리앙 게시물, 2026.02.06). 이게 단순한 체감이 아니라 요금 구조의 직접적인 결과였습니다. 이제는 그 조건이 사라졌습니다.

구분 2월 5일 ~ 3월 12일 3월 13일 이후 (현재)
입력 (≤200K) $5/MTok $5/MTok
입력 (>200K) $10/MTok (2배) $5/MTok (동일)
출력 (≤200K) $25/MTok $25/MTok
출력 (>200K) $37.50/MTok (1.5배) $25/MTok (동일)
컨텍스트 상태 베타 (Claude Platform 전용) GA (API·Vertex·Azure)

▲ 목차로 돌아가기

1M 토큰이 실제로 어느 정도 분량인가

100만 토큰은 영어 기준 약 75만 단어, 한국어 기준으로는 약 60만 자 내외에 해당합니다. 이게 체감이 잘 안 된다면 이렇게 보면 됩니다. 300페이지짜리 소설 책 2~3권을 통째로 하나의 요청에 집어넣을 수 있는 분량입니다. 코드베이스 기준으로는 75,000줄 이상이 들어갑니다 (출처: aitoolranked.com 분석, 2026.03.13).

Anthropic 공식 발표에 따르면, Opus 4.6은 MRCR v2 벤치마크(1M 토큰 needle-in-a-haystack 테스트)에서 78.3%를 기록했습니다. 같은 테스트에서 이전 모델인 Sonnet 4.5는 18.5%에 그쳤습니다 (출처: Anthropic 공식 출시 블로그, 2026.02.05). 컨텍스트 크기가 늘어났을 때 정보 추적 성능 차이가 4배 이상이라는 얘기입니다.

💡 벤치마크 수치와 실제 사용 흐름을 같이 보면 다른 그림이 나옵니다

긴 컨텍스트가 필요한 이유가 단순히 “많이 넣을 수 있어서”가 아닙니다. Claude Code에서 1M 컨텍스트 전후를 비교했을 때 컴팩션(compaction) 이벤트가 15% 줄었다는 Anthropic 측 수치가 있습니다. 컨텍스트가 중간에 압축되면 모델이 앞서 발견한 엣지 케이스를 잊는데, 그게 15% 덜 발생한다는 의미입니다.

현실적으로 1M 토큰이 필요한 작업은 대형 코드베이스 리팩토링, 수백 페이지 계약서 묶음 분석, 긴 에이전트 루프 등입니다. 일반적인 챗봇 응답이나 단건 문서 요약에서는 200K를 넘을 일이 거의 없습니다. 요금 변화가 체감되는 영역은 특정 워크로드에 집중됩니다.

▲ 목차로 돌아가기

표준 모드 vs Fast Mode, 비용 차이를 직접 계산

Anthropic은 Opus 4.6 출시와 함께 Fast Mode(베타·리서치 프리뷰)를 함께 공개했습니다. 같은 Opus 4.6 모델을 약 2.5배 빠른 속도로 추론하는 방식이고, 요금은 $30/MTok 입력, $150/MTok 출력입니다. 표준 요금의 정확히 6배입니다 (출처: Anthropic 공식 가격 문서).

실제로 어느 정도 차이인지, 같은 작업 기준으로 직접 계산해봤습니다. 코드 리뷰 작업 1회를 가정합니다.

계산 예시: 코드 리뷰 1회 (입력 50K + 출력 15K 토큰)

표준 모드: 50,000 × $5/1,000,000 + 15,000 × $25/1,000,000 = $0.25 + $0.375 = $0.625

Fast Mode: 50,000 × $30/1,000,000 + 15,000 × $150/1,000,000 = $1.50 + $2.25 = $3.75

같은 작업에서 Fast Mode가 6배 비싸고, 속도는 약 2.5배 빠릅니다.

속도 대비 비용 효율로 따지면 Fast Mode는 2.5배 빠른 데 6배를 내는 구조입니다. 즉, 속도 1단위를 얻는 데 비용 2.4단위를 추가로 내는 셈입니다. 응답 지연이 서비스 품질에 직결되는 실시간 에이전트나 고객 대면 애플리케이션이 아니라면, 표준 모드가 훨씬 유리합니다.

💡 Fast Mode가 진짜 이득인 케이스는 생각보다 좁습니다

Fast Mode는 200K 초과 요청에서도 표준 요금 6배가 그대로 적용됩니다. 즉, 1M 토큰 롱 컨텍스트 + Fast Mode 조합이면 비용이 6배 × 1M 분량이 됩니다. 이 조합이 정당화되는 경우는 응답 속도가 달러보다 중요한 소수의 엔터프라이즈 시나리오에 한정됩니다.

▲ 목차로 돌아가기

Batch API + 프롬프트 캐싱 조합이 진짜 유리한 조건

비용을 줄이는 핵심은 두 가지 기능의 조합입니다. Batch API는 비동기 처리 방식으로 입력·출력 모두 50% 할인을 제공합니다. Opus 4.6 기준으로 배치 입력은 $2.50/MTok, 출력은 $12.50/MTok입니다 (출처: Anthropic 공식 가격 문서). 즉, 결과를 실시간으로 받을 필요가 없는 작업이라면 비용이 절반으로 내려갑니다.

프롬프트 캐싱은 한번 처리한 컨텍스트를 재사용할 때 캐시 읽기 비용을 표준 입력의 10%만 청구합니다. 5분 TTL 쓰기는 1.25배, 1시간 TTL 쓰기는 2배가 적용되지만 두 번 이상 재사용하면 순이익이 납니다 (출처: Anthropic 공식 가격 문서). 같은 시스템 프롬프트나 큰 문서를 여러 번 호출하는 구조라면 무조건 고려해야 합니다.

계산 예시: 동일 시스템 프롬프트(30K 토큰)로 10회 호출 vs 캐싱 적용

캐싱 없음: 30,000 × 10 × $5/1,000,000 = $1.50

캐싱 적용 (5분 TTL, 1회 쓰기 + 9회 읽기):

쓰기: 30,000 × $6.25/1,000,000 = $0.1875

읽기 9회: 30,000 × 9 × $0.50/1,000,000 = $0.135

캐싱 총계: $0.3225 (약 78% 절감)

1M 토큰 컨텍스트 전환 이후 이 효과가 더 커졌습니다. 이전에는 200K를 초과하면 캐싱 쓰기 비용도 $12.50/MTok(1시간 TTL)으로 올라갔지만, 지금은 컨텍스트 길이와 무관하게 동일한 캐싱 요율이 적용됩니다. 롱 컨텍스트 작업에서 캐싱을 적용하면 이중으로 이득이 생깁니다.

▲ 목차로 돌아가기

Gemini 2.5 Pro 대비 긴 컨텍스트 비용 비교

롱 컨텍스트 비용 비교에서 자주 거론되는 경쟁 모델은 Gemini 2.5 Pro입니다. 둘 다 1M 토큰을 지원하지만 요금 구조가 다릅니다. Gemini 2.5 Pro는 200K 이하 입력에 $1.25/MTok, 200K 초과 입력에는 $2.50/MTok를 적용합니다 (출처: TLDL Gemini API Pricing, 2026.04 기준). 초과분에 2배 요금이 그대로 남아 있습니다.

절대 금액만 보면 Gemini 2.5 Pro가 싸 보입니다. 그런데 200K 초과 구간으로 들어가면 계산이 달라집니다.

항목 Claude Opus 4.6 Gemini 2.5 Pro
입력 ≤200K $5/MTok $1.25/MTok
입력 >200K $5/MTok (동일) $2.50/MTok (2배)
출력 ≤200K $25/MTok $10/MTok
출력 >200K $25/MTok (동일) $15/MTok (1.5배)
긴 컨텍스트 추가 과금 없음 있음

절대 가격 차이가 크기 때문에 짧은 컨텍스트 작업에서는 Gemini 2.5 Pro가 훨씬 유리합니다. 하지만 500K 이상 토큰을 반복적으로 넣는 작업이라면, Gemini의 2배 초과 요금이 쌓이면서 격차가 좁혀집니다. 본인의 평균 프롬프트 길이가 어디에 해당하는지를 먼저 확인해야 합니다.

▲ 목차로 돌아가기

이 요금 구조에서 손해 보는 패턴 2가지

① 3월 13일 이전 요금 기준으로 예산을 잡은 경우

2월에 200K 초과 작업 기준으로 월 예산을 책정한 팀이라면, 지금 동일한 작업을 하면 예산이 남습니다. 반대로 3월 이전 청구서와 이후 청구서를 그냥 같다고 보면 비용 절감을 놓칩니다. Anthropic Console에서 per-token 사용량 로그를 꺼내서 200K 초과 구간이 얼마나 됐는지 실제로 비교해보는 게 좋습니다.

② Fast Mode를 기본으로 켜두는 경우

Fast Mode는 연구 프리뷰 상태이고 현재는 Claude Code와 API에서 선택적으로 활성화합니다. 자동으로 켜지는 설정이 아닌데, 일부 래퍼 툴이나 서드파티 통합 환경에서 Fast Mode가 기본값으로 설정된 경우가 보고됐습니다. 6배 요금이 붙는 구조이므로, 사용 중인 도구의 기본 모드 설정을 반드시 직접 확인해야 합니다.

주의: Anthropic 공식 문서에는 Fast Mode가 “research preview” 상태임을 명시하고 있습니다. 정식 출시 이후 요금이나 속도 배율이 바뀔 수 있고, 현재 배치 API(Batch API)에서는 Fast Mode를 쓸 수 없습니다. 두 기능을 함께 사용할 수 없습니다 (출처: Anthropic 공식 가격 문서).

▲ 목차로 돌아가기

Q&A — 자주 묻는 5가지

Q1. 1M 토큰 컨텍스트는 Claude Platform API에서만 쓸 수 있나요?
아닙니다. 3월 13일 GA 이후부터 Claude Platform API뿐 아니라 AWS Bedrock, Google Cloud Vertex AI, Microsoft Azure Foundry에서도 동일하게 사용할 수 있습니다. 별도의 베타 헤더나 특수 모델 ID 없이 표준 claude-opus-4-6을 그대로 사용하면 됩니다 (출처: Anthropic 공식 문서).
Q2. 클로드 Max 요금제($100/월) 구독자는 200K 초과 요금 폐지가 의미 있나요?
claude.ai 구독은 사용량 기반 과금이 아니라 한도 소진 방식입니다. 따라서 per-token 요금이 직접 청구되지는 않습니다. 다만 내부적으로 200K 초과 토큰은 한도를 더 많이 소진하도록 계산됐을 가능성이 있습니다. 클리앙 커뮤니티에서 4.6 출시 초기에 “2배 빠르게 한도가 소진된다”고 보고된 것도 이 구조가 반영된 결과로 보입니다. 정식 GA 이후에는 이 부분이 개선됐습니다.
Q3. Sonnet 4.6도 같은 요금 구조인가요?
네, Sonnet 4.6도 동일합니다. 1M 토큰 컨텍스트 GA와 200K 초과 프리미엄 폐지가 Opus 4.6과 함께 적용됐습니다. Sonnet 4.6 표준 요금은 입력 $3/MTok, 출력 $15/MTok으로, 200K를 초과해도 요율이 바뀌지 않습니다 (출처: Anthropic 공식 가격 문서).
Q4. Fast Mode는 언제 쓰는 게 합리적인가요?
응답 지연이 수익이나 사용자 이탈에 직결되는 실시간 서비스, 즉 고객 지원 봇이나 인터랙티브 에이전트에서 정당화될 수 있습니다. 백오피스 자동화, 문서 분석, 배치 처리처럼 결과를 즉시 받지 않아도 되는 작업에선 표준 모드 + Batch API 조합이 비용 대비 훨씬 효율적입니다.
Q5. US-only 인퍼런스 옵션은 어떤 경우에 필요한가요?
미국 내 데이터 처리를 규제 또는 계약상 보장해야 하는 의료·금융·법률 분야 엔터프라이즈가 주 대상입니다. inference_geo 파라미터로 활성화하며, 입력·출력·캐시 쓰기·캐시 읽기 전체에 1.1배 요율이 붙습니다. Opus 4.6 이상 최신 모델에만 해당되며 이전 모델은 적용되지 않습니다 (출처: Anthropic 공식 가격 문서).

▲ 목차로 돌아가기

마치며

솔직히 말하면, Claude Opus 4.6의 요금 구조는 2월 5일 이후 세 번 달라졌습니다. 출시 초기 200K 초과 2배 프리미엄이 있었고, 3월 13일에 폐지됐으며, Fast Mode라는 새로운 고가 옵션이 더해졌습니다. 한 달 사이에 같은 모델의 비용 계산이 꽤 많이 바뀐 겁니다.

1M 토큰 컨텍스트가 단일 요율로 풀린 건 실제로 의미 있는 변화입니다. 특히 대형 코드베이스나 긴 문서 묶음을 다루는 팀이라면, 예전에 200K를 기준으로 쪼개서 호출하던 아키텍처를 다시 검토할 이유가 생겼습니다. Fast Mode는 쓰기 전에 본인의 워크로드가 속도 프리미엄을 정당화하는지 먼저 따져보는 게 맞습니다. 6배라는 배율은 작은 숫자가 아닙니다.

Batch API와 프롬프트 캐싱 조합은 여전히 가장 확실한 비용 절감 경로입니다. 실시간 응답이 필요 없는 작업이라면 배치 50% 할인에 캐싱까지 쌓으면 표준 요금 대비 80% 이상을 아끼는 것도 현실적으로 가능합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 가격 문서 — https://docs.anthropic.com/en/docs/about-claude/pricing
  2. Anthropic Claude Opus 4.6 출시 블로그 — https://www.anthropic.com/news/claude-opus-4-6
  3. Anthropic 모델 개요 공식 문서 — https://docs.anthropic.com/en/docs/about-claude/models/overview
  4. Claude 1M Context GA 분석 (AIToolRanked, 2026.03.13) — https://aitoolranked.com/blog/claude-1m-context-ga-2026-opus-sonnet-no-premium-pricing
  5. Gemini API Pricing (TLDL, 2026.04) — https://www.tldl.io/resources/google-gemini-api-pricing

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Claude API 요금은 Anthropic의 결정에 따라 예고 없이 변경될 수 있으므로, 최신 정보는 Anthropic 공식 가격 페이지(docs.anthropic.com/en/docs/about-claude/pricing)에서 직접 확인하시기 바랍니다. 본 포스팅의 계산 예시는 2026년 4월 13일 기준 공식 요율을 바탕으로 한 참고용 수치입니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기