Claude API 최신
Claude Batch API, 싸다고요?
이 조건 먼저 보세요
결론부터 말씀드리면, Batch API + Prompt Caching을 병행하면 입력 토큰 비용이 표준가 대비 95%까지 낮아집니다. 그런데 이게 가능하다는 걸 모르는 분이 너무 많아요. 반대로, “그냥 Batch API만 쓰면 되겠다”고 생각했다가 실제 운영에서 막히는 조건도 있습니다. 공식 문서와 실사용 데이터를 직접 뒤져봤습니다.
Claude Batch API가 뭔지 딱 한 줄로
Claude Batch API(공식 명칭: Message Batches API)는 실시간 응답이 필요 없는 요청을 하나의 묶음으로 보내는 방식입니다. 대신 24시간 이내 처리를 보장하는 조건으로 모든 토큰 카테고리에 일괄 50% 할인을 적용해 줍니다. 이 원리는 간단합니다. Anthropic 입장에서는 여유 GPU 사이클에 배치 작업을 끼워 넣기 때문에 인프라 가동률이 높아지고, 그 비용 효율을 개발자에게 돌려주는 구조입니다.
배치 하나에 최대 10,000건의 요청을 담거나 총 32MB 용량을 넘기지 않는 범위에서 사용할 수 있습니다. 처리 결과는 배치 내 모든 요청이 완료된 시점에 한 번에 내려받을 수 있고, 결과 URL을 통해 최대 29일 동안 접근 가능합니다. (출처: Anthropic Message Batches API 공식 문서, docs.anthropic.com)
한 가지 중요한 전제가 있어요. Batch API는 비동기 처리입니다. 요청을 보내고 나서 결과를 기다리는 것이 아니라, 나중에 결과를 폴링해서 가져와야 하는 구조입니다. 실시간 챗봇이나 사용자가 화면 앞에서 기다리는 UI에는 쓸 수 없습니다.
모델별 가격표, 직접 비교해봤습니다
2026년 3월 기준 Claude 모델별 표준가와 Batch API 적용가를 정리했습니다. 수치는 Anthropic 공식 가격 페이지(anthropic.com/pricing)와 제3자 검증 자료(devtk.ai, 2026.02.23)를 기준으로 합니다.
| 모델 | 표준 Input /1M 토큰 |
표준 Output /1M 토큰 |
Batch Input (50% 할인) |
Batch Output (50% 할인) |
|---|---|---|---|---|
| Opus 4.6 | $5.00 | $25.00 | $2.50 | $12.50 |
| Sonnet 4.5 | $3.00 | $15.00 | $1.50 | $7.50 |
| Haiku 4.5 | $1.00 | $5.00 | $0.40 | $2.00 |
출처: Anthropic 공식 가격 페이지(anthropic.com/pricing) / devtk.ai 검증(2026.02.23). 표 안 수치는 USD 기준이며, 세금·지역 요금 별도입니다.
Batch + 캐싱 병행이 가능한 이유, 계산해봤습니다
💡 공식 발표문과 가격 구조를 함께 놓고 계산해보니, Batch API와 Prompt Caching을 동시에 쓰면 두 할인이 곱해져서 적용된다는 게 보였습니다.
Anthropic은 공식적으로 Batch API 할인과 Prompt Caching 할인을 중복 적용할 수 있다고 밝히고 있습니다. 두 할인은 독립적으로 작동하고 곱해서 계산됩니다. (출처: aifreeapi.com, Claude Opus 4.6 Pricing 가이드, 2026.02.08 — Anthropic 공식 문서 기반 검증)
📊 Sonnet 4.5 기준, 3,000토큰 시스템 프롬프트 / 하루 10,000건 처리 시나리오
캐싱 없이 — 표준가 적용
3,000토큰 × 10,000건 × 30일 = 900,000,000 입력 토큰
900M × $3.00/M = $2,700/월 (시스템 프롬프트 부분만)
Prompt Caching만 적용
첫 번째 캐시 쓰기: $3.75/M × 3,000토큰 × 30일 ≈ $0.34
이후 캐시 읽기: $0.30/M × 3,000토큰 × (10,000건 − 1) × 30일 ≈ $270/월
합계 ≈ $270/월 — 약 90% 절감
Batch API + Prompt Caching 동시 적용
캐시 읽기 단가: $0.30/M × 50%(Batch 할인) = $0.15/M
900M 입력 토큰(캐시 히트 기준) × $0.15/M ≈ $135/월
$2,700 → $135 — 95% 절감
월 $2,565가 그냥 사라지는 구조입니다. 물론 이 수치는 캐시 히트율이 이상적인 경우를 가정한 것이지만, 대량 배치 작업에서 동일한 시스템 프롬프트를 쓴다면 실제로 이 수준에 가까운 절감이 납니다.
싸게 쓰려다 막히는 딱 두 가지 조건
💡 여러 블로그가 “Batch API = 50% 절감”만 이야기할 때, 실제 운영에서 문제가 되는 결과 수령 구조와 한도 초과 리스크는 공식 문서를 직접 봐야 보입니다.
① 결과는 전부 완료되기 전까지 한 건도 못 가져옵니다
Batch API의 가장 중요한 제약입니다. 배치 내 10,000건 중 9,999건이 완료돼도 나머지 1건이 처리 중이라면 결과를 전혀 내려받을 수 없습니다. 공식 문서에는 “Results are only available once all requests in the batch are processed”라고 명시되어 있습니다. (출처: Anthropic Message Batches API 공식 문서, docs.anthropic.com)
이게 무슨 의미냐면, 9,999건의 결과를 빠르게 활용해야 하는 파이프라인에서는 Batch API가 오히려 발목을 잡을 수 있다는 뜻입니다. 배치를 잘게 쪼개서 여러 번 나눠 보내는 방식으로 우회할 수 있지만, 그러면 관리 복잡도가 올라갑니다.
② Workspace 지출 한도를 초과하면 배치 전체가 날아갑니다
대량 배치를 동시에 여러 개 돌릴 경우, 예상보다 빠르게 Workspace에 설정된 지출 한도(spend limit)를 넘길 수 있습니다. 이 경우 처리 중인 배치가 중단됩니다. 공식 문서에서 “High throughput and concurrent processing may result in exceeding the configured spend limit of your Workspace”라고 직접 경고하고 있습니다. (출처: Anthropic Message Batches API 공식 문서)
실운영 전에 Anthropic Console에서 Workspace별 지출 한도를 확인하고, 배치 규모에 맞게 미리 상향해두는 것이 필수입니다.
Fast Mode와 Batch API를 동시에 못 쓰는 이유
💡 “싸게 빠르게”라는 조합이 불가능한 건데, 이 제약을 모르고 Fast Mode와 Batch API를 함께 설계했다가 나중에 아키텍처를 갈아엎는 사례가 실제로 나오고 있습니다.
Claude Opus 4.6에는 Fast Mode라는 기능이 있습니다. 표준가 대비 6배 비싼 $30/M(Input), $150/M(Output)을 내는 조건으로 응답 지연시간을 대폭 줄여주는 옵션입니다. 레이턴시가 중요한 서비스라면 고려해볼 만한 기능이죠.
그런데 Fast Mode는 Batch API와 병행이 안 됩니다. 빠른 처리(Fast Mode)와 저렴한 처리(Batch API)는 인프라 자원 배분 방식이 정반대라서 동시에 적용할 수 없는 구조입니다. (출처: aifreeapi.com, Claude Opus 4.6 Pricing 가이드, 2026.02.08)
반면 Fast Mode + Prompt Caching 조합은 됩니다. 이 경우 캐시 읽기 단가가 $0.50/M으로 낮아지면서 입력 비용의 상당 부분을 줄일 수 있습니다. 출력은 $150/M이라는 높은 단가가 그대로 유지되니, 출력 토큰을 최소화하는 프롬프트 설계가 병행되어야 Fast Mode의 가성비가 올라갑니다.
Opus 4.6 기능 조합 가능 여부 (2026.03 기준)
| 조합 | 가능 여부 | 입력 절감 |
|---|---|---|
| Batch API 단독 | ✅ | 50% |
| Prompt Caching 단독 | ✅ | 최대 90% |
| Batch + Caching 병행 | ✅ | 최대 95% |
| Fast Mode + Caching 병행 | ✅ | 입력만 90% |
| Fast Mode + Batch API | ❌ 불가 | — |
처리 시간 “최대 24시간”의 실제 의미
공식 문서에는 “최대 24시간”이라고 나오고 일반적으로는 더 빠르게 처리된다고 설명합니다. 그런데 실사용에서는 이 시간이 불확실합니다. Reddit의 한 개발자(u/knavishly_vibrant38)가 2026년 1월 24일 올린 게시물에 따르면, 기존에 2분이면 완료되던 배치 작업이 8시간 이상 걸리거나 아예 완료되지 않는 사례가 발생했습니다. 댓글에서 다른 개발자(u/cfdude)는 “처리 시간은 서버 부하에 따라 달라지며, 배치 작업이 낮은 우선순위 GPU 사이클에 배정되는 원리상 이는 예상된 범위”라고 설명했습니다. (출처: r/ClaudeAI, 2026.01.24)
다시 말해, Batch API는 “일정 시간 내에 처리됩니다”가 아니라 “언제 처리될지 알 수 없지만 최대 24시간을 넘기지는 않습니다”에 더 가까운 구조입니다. 오후에 배치를 돌려서 다음 날 아침에 결과를 쓰겠다는 계획은 괜찮지만, “4시간 후에 결과가 필요하다”는 일정은 맞추기 어려울 수 있습니다.
⚠️ 처리 시간이 24시간을 초과하면 해당 요청은 만료(expire)되며, 결과를 받을 수 없습니다. 이 경우 재요청이 필요하고 비용도 다시 발생합니다.
Batch API는 “저렴하지만 느리다”는 트레이드오프를 정확히 이해하고 써야 합니다. 서버 부하가 높은 시간대에 대량 배치를 돌리면 처리 시간이 예상보다 길어질 수 있습니다. 처리 시간이 중요하다면 배치를 분산해서 보내는 방식이 안전합니다.
Q&A
마치며
Claude Batch API는 분명히 강력한 비용 절감 도구입니다. 단독으로 쓰면 50%, Prompt Caching과 같이 쓰면 최대 95%까지 입력 비용을 낮출 수 있고, 이 두 가지 할인이 중복 적용된다는 사실은 공식 문서에도 명시되어 있습니다.
그런데 막상 써보면 다른 지점에서 예상 외의 상황이 생깁니다. 결과가 전부 완료되기 전까지 부분 조회가 안 된다는 점, Fast Mode와 병행이 불가하다는 점, 처리 시간이 서버 부하에 따라 크게 달라질 수 있다는 점. 이게 설계 단계에서 빠져 있으면 나중에 아키텍처를 다시 짜야 하는 상황이 생깁니다.
결론은 이렇습니다. 비실시간 대량 처리 파이프라인이라면 Batch API + Prompt Caching 조합은 거의 최선에 가깝습니다. 단, 처리 완료 시점이 중요하거나 결과를 부분적으로 빠르게 소비해야 하는 구조라면 표준 API가 더 맞습니다.
📚 본 포스팅 참고 자료
- Anthropic Message Batches API 공식 문서 — docs.anthropic.com/en/docs/build-with-claude/message-batches
- Anthropic 공식 가격 페이지 — anthropic.com/pricing
- Claude Opus 4.6 Pricing 완전 가이드 (aifreeapi.com, 2026.02.08) — aifreeapi.com/en/posts/claude-opus-4-pricing
- Claude API Pricing Guide 2026 (devtk.ai, 2026.02.23) — devtk.ai/en/blog/claude-api-pricing-guide-2026/
- Reddit r/ClaudeAI — Claude Batch API 처리 시간 실사례 (2026.01.24) — reddit.com/r/ClaudeAI/comments/1qlwhxl
본 포스팅 작성 이후 Anthropic의 서비스 정책·가격·기능이 변경될 수 있습니다. 수치는 2026년 3월 21일 기준이며, 최신 정보는 Anthropic 공식 문서(docs.anthropic.com)와 가격 페이지(anthropic.com/pricing)에서 직접 확인하세요. 본 포스팅은 정보 제공 목적으로 작성되었으며, 특정 서비스의 이용을 보장하지 않습니다.


댓글 남기기