Claude API 요금, 구조대로 계산하면 4곳에서 틀립니다
“입력 $3·출력 $15″만 보고 계산했다가는 실제 청구서가 크게 달라집니다. 캐시 쓰기, Tool use 기본 토큰, Fast mode 제한, 장문 컨텍스트 구간 분기 — 네 곳에서 요금이 추가됩니다.
Anthropic API
토큰 과금
모델별 기본 요금 — 먼저 숫자를 정확히 보겠습니다
결론부터 말씀드리면, 지금 시점(2026.03.30)에서 Claude API는 세 개 모델이 현역입니다. Opus 4.6, Sonnet 4.6, Haiku 4.5. 아래 표는 Anthropic 공식 문서에서 직접 가져온 수치입니다.
| 모델 | 입력 (MTok) | 출력 (MTok) | 캐시 읽기 | 컨텍스트 |
|---|---|---|---|---|
| Claude Opus 4.6 | $5 | $25 | $0.50 | 1M tokens |
| Claude Sonnet 4.6 | $3 | $15 | $0.30 | 1M tokens |
| Claude Haiku 4.5 | $1 | $5 | $0.10 | 200k tokens |
(출처: Anthropic 공식 API Pricing 문서, 2026.03 기준 — docs.anthropic.com/en/docs/about-claude/pricing)
여기까지는 다들 아는 내용입니다. 문제는 이 표만 보고 요금을 계산하면 실제 청구서와 달라진다는 점입니다. 이 표에는 캐시 쓰기 비용, Tool use 기본 토큰, Fast mode 제한, 장문 컨텍스트 구간 분기 — 이 네 가지가 빠져 있습니다.
Opus 4.6과 Sonnet 4.6은 둘 다 100만 토큰 컨텍스트를 추가 요금 없이 제공합니다. (출처: Anthropic 공식 문서, 2026.03) Sonnet 4.5와 Sonnet 4는 20만 토큰 초과 시 요금이 두 배로 뛰는데, 4.6은 그 구간 요금 분기가 없습니다. 자주 헷갈리는 지점입니다.
캐싱이 처음엔 더 비쌉니다 — 5분짜리 TTL의 함정
“캐싱 쓰면 90% 저렴해진다”는 말이 널리 퍼져 있는데, 그건 절반만 맞는 이야기입니다. 공식 문서를 그대로 옮기면 이렇습니다.
💡 공식 가격표와 실제 청구 흐름을 같이 놓고 보니 이런 순서가 보였습니다.
- 5분 캐시 쓰기: 기본 입력 단가의 1.25배 (Sonnet 4.6 기준 $3 → $3.75/MTok)
- 1시간 캐시 쓰기: 기본 입력 단가의 2배 (Sonnet 4.6 기준 $3 → $6/MTok)
- 캐시 읽기(Hit): 기본 입력 단가의 0.1배 (Sonnet 4.6 기준 $0.30/MTok)
계산해보면, 5분 캐시는 처음 한 번 쓰기에서 25% 할증 부담이 발생합니다. 이 선등록 비용을 회수하려면 캐시 읽기가 최소 2회 이상 일어나야 합니다. 그 이전까지는 오히려 일반 입력보다 비쌉니다.
| 캐시 호출 횟수 | 5분 캐시 누적 비용 | 일반 입력 누적 비용 | 손익 분기 |
|---|---|---|---|
| 1회 쓰기 + 0회 읽기 | $3.75 | $3.00 | ❌ 손해 |
| 1회 쓰기 + 1회 읽기 | $4.05 | $6.00 | ✅ 이익 |
| 1회 쓰기 + 10회 읽기 | $6.75 | $33.00 | ✅ 약 80% 절감 |
(Sonnet 4.6, 동일한 1MTok 시스템 프롬프트 기준 계산 / 출처: Anthropic Pricing — Prompt Caching)
1회 읽기가 생기면 손익 분기를 넘습니다. 캐싱은 같은 시스템 프롬프트를 반복 호출하는 서비스에선 강력한 도구지만, 단발성 요청이 많은 구조에서는 쓰기 비용만 추가로 나갑니다.
TTL이 5분이라는 점도 중요합니다. 대화 중간에 5분 이상 공백이 생기면 캐시가 사라지고, 다음 요청에서 쓰기 비용이 다시 부과됩니다. 자동화나 챗봇에서 사용자가 5분 이상 자리를 비운 경우가 대표적입니다. 사람 중심 대화 서비스에서 5분 TTL은 생각보다 자주 만료됩니다.
Tool use를 쓰면 346 토큰이 자동으로 붙습니다
Tool use를 API에서 활성화하면 시스템 프롬프트에 Anthropic이 자동으로 삽입하는 기본 토큰이 있습니다. 요청당 추가 비용이 발생하지만, 공식 문서를 보기 전까지는 아무도 알 수 없습니다.
💡 공식 문서 가격표에 따로 표기되어 있는데, 통합 요금 계산기에는 잘 안 나옵니다.
- tool_choice: auto / none → 요청당 346 토큰 추가 (Opus 4.6·Sonnet 4.6·Haiku 4.5 동일)
- tool_choice: any / tool → 요청당 313 토큰 추가
Sonnet 4.6 기준으로 계산하면, 346 토큰 = 약 $0.000001038입니다. 요청 한 번에는 무시할 수준이지만, 월 100만 건 요청하는 서비스라면 $1.04가 추가됩니다. 그보다 중요한 건 이 토큰이 Tool 정의 스키마(names, descriptions, schemas) 토큰과 별개로 쌓인다는 점입니다. Tool 정의가 길고 복잡할수록 입력 토큰이 크게 늘어납니다. 도구가 많은 에이전트를 설계할 때 입력 비용이 예상보다 크게 나오는 주요 이유 중 하나입니다.
또한 Web Search 도구를 사용하면 토큰 비용에 더해 검색 1회당 $0.01이 별도로 부과됩니다 (1,000회 = $10). 검색 결과 텍스트는 입력 토큰으로 다시 과금됩니다. Web Fetch 도구는 검색 추가 요금이 없고 토큰 비용만 적용됩니다. 두 도구를 혼동하면 비용 설계가 어긋납니다.
Batch와 Fast mode, 둘 다 쓰면 Fast mode는 무효입니다
Batch API는 비동기 처리를 대가로 입력·출력 토큰 모두 50% 할인을 제공합니다. Sonnet 4.6 기준으로 입력 $1.50/MTok, 출력 $7.50/MTok. 반면 Fast mode는 Opus 4.6 전용으로 표준 요금의 6배인 입력 $30/MTok, 출력 $150/MTok가 부과됩니다.
이 두 가지를 동시에 적용할 수 있을 것 같지만, 공식 문서에 딱 이렇게 나옵니다: “Fast mode is not available with the Batch API.” (출처: Anthropic API Pricing 공식 문서, 2026.03) Fast mode가 요구하는 즉각적 처리와 Batch API의 비동기 구조가 물리적으로 상충하기 때문입니다. Fast mode를 쓰면서 Batch 할인을 받을 방법은 없습니다.
⚠️ 비용 비교 — Opus 4.6, 동일 1MTok 입력 기준
- 표준 API: 입력 $5 / 출력 $25
- Batch API: 입력 $2.50 / 출력 $12.50 (50% 할인)
- Fast mode: 입력 $30 / 출력 $150 (6배 할증)
- Fast mode + Batch 동시 적용: 지원 안 됨
Fast mode는 Opus 4.6에서만 작동하고, Haiku나 Sonnet은 지원하지 않습니다. 응답 속도가 결정적으로 중요한 실시간 서비스가 아니라면, Fast mode 6배 할증을 감수할 이유는 거의 없습니다. Batch 처리가 가능한 구조로 설계하는 편이 비용 관리 측면에서 훨씬 유리합니다.
장문 컨텍스트 200k 구간 — Sonnet 4.5·4와 4.6이 다릅니다
이 부분은 같은 ‘Sonnet’이어도 버전에 따라 요금 체계가 완전히 달라집니다. 공식 문서를 직접 확인해야 하는 이유입니다.
| 모델 | 200k 이하 입력 | 200k 초과 입력 | 200k 초과 출력 |
|---|---|---|---|
| Sonnet 4.6 | $3/MTok | $3/MTok (동일) | $15/MTok (동일) |
| Sonnet 4.5 / 4 | $3/MTok | $6/MTok (2배) | $22.50/MTok (1.5배) |
| Opus 4.6 | $5/MTok | $5/MTok (동일) | $25/MTok (동일) |
(출처: Anthropic Long Context Pricing 공식 문서, 2026.03 — docs.anthropic.com/en/docs/about-claude/pricing#long-context-pricing)
Sonnet 4.5·4에서 입력이 200k 토큰을 넘으면 해당 요청의 전체 입력 토큰이 $6/MTok으로 과금됩니다. 201,000번째 토큰부터만 비싸지는 게 아닙니다. 전체 입력이 프리미엄 요금으로 바뀝니다. 대형 문서나 코드베이스를 통째로 넣는 작업에서 요금이 예상보다 두 배로 나올 수 있는 구조입니다.
Sonnet 4.6과 Opus 4.6은 이 구간 분기가 없습니다. 동일한 토큰당 단가가 100만 토큰까지 유지됩니다. 장문 컨텍스트를 자주 쓴다면, Sonnet 4.5 대신 Sonnet 4.6으로 모델 버전을 올리는 것만으로 요금이 절반으로 줄 수 있습니다.
공식 발표 수치와 실제 청구서를 같이 놓고 보니 보이는 것
💡 Anthropic이 공개한 사용 통계를 보면 구독과 API 중 어느 쪽이 실제로 유리한지 거꾸로 계산이 됩니다.
Anthropic이 공식 비용 관리 문서에서 밝힌 수치에 따르면, Claude Code를 사용하는 평균 개발자의 하루 API 환산 토큰 소비는 약 $6 상당입니다. 월 환산 시 약 $180입니다. (출처: Anthropic Claude Code 비용 관리 공식 문서, 2026.03) 그런데 Pro 구독 월정액은 $20입니다. 같은 사용량을 API 종량제로 쓰면 9배 비싸다는 뜻입니다.
막상 해보면 다릅니다. Pro 구독은 사용량 한도가 있고, 한도를 넘으면 5시간 대기가 걸립니다. API 종량제는 한도 없이 과금되지만, 자동 충전을 켜두면 잠깐의 테스트에서도 수십 달러가 사라질 수 있습니다. 클리앙 커뮤니티에서 실제 사용자가 “30분 테스트에 $10 증발”을 경험한 사례가 공유된 것처럼, 종량제는 소비 제어 장치 없이 쓰면 위험합니다.
반대 케이스도 있습니다. 대량 Batch 처리 파이프라인을 운영하는 팀의 경우 API 종량제 + Batch 50% 할인이 구독보다 훨씬 유리합니다. 구독은 대화형 인터랙티브 사용, API는 자동화·파이프라인 사용이라는 구분이 요금 선택의 출발점입니다.
| 비교 항목 | 구독 Pro ($20) | API 종량제 |
|---|---|---|
| 캐시 읽기 비용 | 무료 | $0.30/MTok |
| 사용 상한 | 한도 있음 (5시간 제한) | 무제한 |
| Batch 50% 할인 | 해당 없음 | 적용 가능 |
| 비용 예측성 | 고정 (예측 쉬움) | 변동 (모니터링 필요) |
구독에서 캐시 읽기가 무료라는 점은 공식 가격표에 명시되어 있지 않아서 모르고 넘어가기 쉽습니다. Reddit에서 “구독이 API보다 최대 36배 저렴하다”는 계산이 나온 배경도 이 캐시 읽기 무료 정책 때문입니다. 많은 반복 호출이 발생하는 대화형 서비스라면 구독이 압도적으로 유리합니다.
Q&A — 자주 헷갈리는 질문 5개
마치며
Claude API 요금은 모델별 단가 표 하나로 설명되지 않습니다. 캐싱 쓰기 할증, Tool use 기본 토큰 추가, Fast mode와 Batch의 상호 배제, 모델 버전별 장문 컨텍스트 구간 분기 — 이 네 가지를 놓치면 실제 청구서가 예상과 크게 달라집니다.
가장 실용적인 정리를 해드리면, 반복 호출이 많은 대화형 서비스는 구독 플랜이 유리하고, 자동화·파이프라인은 API 종량제 + Batch 조합이 유리합니다. 장문 컨텍스트를 다룬다면 Sonnet 4.6 이상으로 모델을 올리는 것만으로도 비용 구조가 달라집니다.
Anthropic은 정책 변경 시 공식 문서를 업데이트하지만, 변경 타이밍을 별도로 공지하지 않는 경우도 있습니다. 요금이 중요한 서비스를 운영하고 있다면 공식 가격 문서를 주기적으로 직접 확인하는 것이 가장 확실합니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 30일 기준 Anthropic 공식 문서를 참고해 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있으며, 최신 정보는 Anthropic 공식 문서에서 직접 확인하시기 바랍니다. 본 내용은 정보 제공 목적이며, 금전적 의사결정 시 공식 자료를 기준으로 삼아 주세요.











댓글 남기기