2026.03.20 기준 / AWS Bedrock 최신 요금 기준

AWS Bedrock 요금, 계산했는데 3배 나왔습니다

토큰 단가만 봤다면, 이 7가지 항목을 아직 못 본 겁니다.

숨겨진 비용 최대 +103%
프로비전드 = 무조건 저렴? ❌
배치 추론 50% 할인

결론부터 말씀드리면, AWS Bedrock 요금 페이지에 나온 숫자만 계산하면 실제 청구서의 절반도 안 나옵니다. 실제 서비스를 운영 중인 회사들의 청구 데이터를 보면, 소규모 워크로드일수록 숨겨진 비용이 API 원가의 최대 103%까지 붙습니다. 처음에 $44 정도 나올 것으로 예상했던 팀이 실제 청구서를 받고 $89가 찍혀 있던 사례가 대표적입니다.

그리고 많은 분들이 “프로비전드 스루풋이 온디맨드보다 무조건 저렴하다”고 알고 있는데, 이게 실제로는 월 2,000만 건 이상의 요청이 있어야 겨우 손익분기점이 됩니다. 이 두 가지 포인트를 공식 요금표와 실제 청구 데이터로 직접 확인해 봤습니다.

AWS Bedrock 요금 구조, 딱 2가지로 나뉩니다

Bedrock의 요금 체계는 크게 온디맨드(On-Demand)와 프로비전드 스루풋(Provisioned Throughput)으로 나뉩니다. 온디맨드는 사용한 토큰 수만큼 후불로 내는 방식이고, 프로비전드 스루풋은 시간당 고정 비용을 내는 예약 방식입니다. 두 가지 외에 비동기 처리를 위한 배치 추론도 있는데, 이건 온디맨드 대비 최대 50% 저렴합니다.

온디맨드의 핵심은 입력 토큰과 출력 토큰의 단가 차이입니다. 출력 토큰이 입력 토큰보다 보통 5배 비쌉니다. Claude 3.5 Sonnet 기준으로 입력은 1백만 토큰당 $3, 출력은 $15입니다. 여기서 많은 분들이 놓치는 게, 프롬프트 한 줄이 100토큰이라면 응답 한 줄도 비슷한 길이일 경우 응답 비용이 5배라는 의미입니다. 즉, 응답이 길수록 요금이 기하급수적으로 늘어납니다.

▲ 목차로 돌아가기

2026년 모델별 최신 요금표

아래는 AWS 공식 요금 페이지 기준 2026년 3월 현재 주요 모델의 온디맨드 요금입니다. (출처: AWS Bedrock 공식 요금 페이지)

모델	입력 (1K 토큰)	출력 (1K 토큰)	배치 할인
Claude 3.5 Sonnet	$0.006	$0.030	50% ↓
Claude 3.5 Sonnet v2	$0.006	$0.030	50% ↓
Llama 3.1 70B	$0.00035	$0.00045	50% ↓
Mistral Large 3	$0.00050	$0.00150	50% ↓
Gemma 3 27B (Google)	$0.00023	$0.00038	75% ↓
DeepSeek-R1	$0.00135	$0.00540	50% ↓

* 위 요금은 us-east-1 리전 온디맨드 기준이며, 리전과 서비스 티어에 따라 달라집니다. (출처: aws.amazon.com/ko/bedrock/pricing)

▲ 목차로 돌아가기

프로비전드 스루풋이 더 비싼 경우가 있습니다

💡 공식 요금표와 실제 사용 흐름을 같이 놓고 보니, 예상과 정반대인 구간이 보였습니다. “비싸다고 알려진 온디맨드”가 실제로는 더 저렴한 구간이 꽤 넓습니다.

“많이 쓰면 프로비전드가 무조건 싸다”는 게 상식처럼 퍼져 있는데, 막상 수치를 계산해 보면 달랐습니다. 프로비전드 스루풋은 MU(Model Unit) 단위로 시간당 요금을 내는 구조입니다. Claude 3.5 Sonnet 기준 1 MU당 시간당 $39인데, 이를 24시간×30일로 환산하면 1 MU당 월 $28,470입니다. (출처: AWS Bedrock 공식 요금 페이지, 2026.03.20 기준)

이걸 직접 비교해 봤습니다. 월 500만 건 요청, 입력 2,000 토큰·출력 500 토큰 기준으로 계산하면:

온디맨드 계산:
입력: 500만 × 2,000 토큰 × $3/100만 = $30,000
출력: 500만 × 500 토큰 × $15/100만 = $37,500
합계: $67,500/월
프로비전드 계산 (4 MU 필요):
4 MU × $39/시간 × 730시간 = $113,880/월
프로비전드가 $46,380 더 비쌉니다.

이 수치가 의미하는 바는 간단합니다. 월 500만 건 규모에서는 프로비전드가 온디맨드보다 약 68% 더 비쌉니다. 6개월 약정을 잡아서 30% 할인을 받아도 여전히 비쌉니다. 실제 데이터 기준으로 프로비전드가 의미 있는 절감 효과를 내려면 월 2,000만 건 이상의 요청 + 6개월 약정 조건이 동시에 충족돼야 합니다. (출처: Medium, AWS Engineering on AWS, 2026.03.10)

그렇다면 프로비전드가 필요한 경우는 언제일까요? 비용 절감이 목적이 아니라 레이턴시 보장과 Rate Limit 회피가 목적일 때입니다. 실시간 고객 응대 챗봇처럼 응답 속도가 매출에 직결되는 경우, 온디맨드의 가변 지연(500ms~2,000ms)이 문제가 된다면 그때 검토할 수 있습니다.

▲ 목차로 돌아가기

요금 페이지에 없는 7가지 숨겨진 비용

💡 실제 기업들의 청구서를 모아 분석해 보니, API 원가만큼의 비용이 다른 항목에서 추가로 나오는 패턴이 일관되게 보였습니다.

월 5만 건 요청, Claude 3 Haiku 기준으로 예상 청구액은 약 $44였는데 실제 청구서에 $89가 찍힌 사례가 있습니다. 숨겨진 비용이 API 원가의 103%였다는 뜻입니다. (출처: Medium, AWS Engineering on AWS, 2026.03.10) 이게 예외적인 게 아니라, 소규모 워크로드에서는 오히려 이 패턴이 더 심합니다. 7가지를 정리해 봤습니다.

① 테스트와 개발 비용. 프롬프트가 처음부터 완성되는 경우는 없습니다. 15가지 변형을 테스트한 한 스타트업의 경우 테스트 비용만 월 $22가 나왔습니다. 연간으로 환산하면 $648인데, 아무도 이걸 예산에 안 넣습니다.

② 실패한 요청과 재시도 비용. 실패한 요청도 과금됩니다. 업계 평균 실패율은 6%이고, 자동 재시도(보통 2회)까지 포함하면 매달 요청 5만 건 기준으로 약 $20의 비용이 그냥 사라집니다.

③ 모델 A/B 테스트 비용. “Sonnet이 나은지 Haiku가 나은지” 확인하는 과정에서 추가 요청이 발생합니다. 매달 꾸준히 나오는 비용입니다.

④ 인프라 비용. Lambda(프롬프트 전처리), S3(입출력 저장), API Gateway, CloudWatch 로그가 모두 별도 과금됩니다. 중간 규모 기준 월 $780 수준으로 추정됩니다.

⑤ 모니터링 비용. CloudWatch 상세 모니터링, 커스텀 메트릭, 로그 저장 비용이 월 $400 선입니다. 다만 모니터링을 제대로 셋업한 팀은 “런어웨이 프로세스”를 조기에 잡아 연간 $97,200을 아꼈다는 사례도 있습니다.

⑥ 트래픽 피크 대응 비용. 평균 트래픽이 균등하다고 생각하지만, 실제 서비스는 시간대별 편차가 큽니다. 월 요청량의 40%가 20%의 시간대에 몰리는 패턴이 일반적입니다.

⑦ 모델 전환 오버헤드. 응답 품질이 부족해서 다른 모델로 재요청하는 경우가 전체의 10% 수준입니다. 월 50만 건 기준 약 $735이 이 항목에서 나옵니다.

⚠️ 핵심: API 요금만 계산하셨다면 실제 청구서는 그것의 1.5~2배가 나옵니다. 처음 6개월은 예산을 API 예상액의 2배로 잡는 게 현실적입니다. (출처: AWS Engineering on AWS, 2026.03.10)

▲ 목차로 돌아가기

배치 추론·Priority·Flex 티어, 2026년에 바뀐 것

2025년까지는 Standard 티어만 있었는데, 2026년에 Priority와 Flex 티어가 추가됐습니다. (출처: AWS Bedrock 서비스 티어 공식 페이지)

Priority 티어는 Standard 대비 출력 토큰당 최대 25% 더 빠른 처리 속도를 제공하는 프리미엄 옵션입니다. 실시간 번역, 고객 응대 챗봇처럼 1초 1초가 중요한 서비스에 적합합니다. 대신 Standard보다 요금이 높습니다.

Flex 티어는 반대로 지연을 감수하는 대신 비용을 줄이는 옵션입니다. 모델 평가, 문서 요약·분류, 멀티스텝 에이전트 워크플로우처럼 응답 속도가 크리티컬하지 않은 작업에 씁니다. 고트래픽 시간대에는 Standard 이후로 처리 순서가 밀릴 수 있습니다.

💡 Priority·Flex·Standard·Batch를 조합하면 같은 워크로드를 처리하면서도 비용 구조가 달라질 수 있습니다. “모든 요청에 Standard” 방식에서 긴급하지 않은 작업을 Flex 또는 Batch로 분리하면 10~50%까지 절감 가능합니다.

배치 추론은 여기서 가장 확실한 방법입니다. Anthropic, Meta, Mistral AI, Amazon AI 모델 모두 배치 추론 시 온디맨드 대비 최대 50% 저렴하게 제공됩니다. 단, 결과를 S3에서 꺼내야 하는 비동기 방식이라 실시간 응답이 필요한 서비스에는 쓸 수 없습니다. (출처: AWS Bedrock 공식 요금 페이지, 2026.03.20)

▲ 목차로 돌아가기

비용을 40~60% 줄이는 방법, 실제로 작동합니다

이건 이론이 아니라 실제로 계산 가능한 수치입니다. 아래 방법들을 조합하면 월 청구액을 절반 수준으로 줄일 수 있습니다.

모델을 용도에 맞게 분리하세요

Claude 3.5 Sonnet과 Claude 3 Haiku의 요금 차이는 입력 12배, 출력 12배입니다. 월 50만 건 요청 중 단순 분류·데이터 추출에 해당하는 40%를 Haiku로 전환하면, Sonnet만 썼을 때 월 $9,000에서 $5,700으로 줄어듭니다. 절감액 $3,300/월, 연간 $39,600입니다. (출처: Medium, AWS Engineering on AWS, 2026.03.10)

프롬프트 캐싱만 써도 62% 줄어듭니다

Bedrock의 프롬프트 캐싱은 캐시 히트 시 해당 토큰을 90% 할인으로 처리합니다. 캐시는 5분간 유지됩니다. 시스템 프롬프트 800 토큰 + 예시 600 토큰이 매번 반복된다면, 이 1,400 토큰을 캐싱하는 것만으로도 월 50만 건 기준 입력 비용이 $3,000에서 $1,148로 줄어든다는 계산이 나옵니다. 전체 입력 비용의 62% 절감입니다. (출처: AWS 기술 블로그, amazon.com 블로그, 2026.02.19)

프롬프트 길이를 줄이면 66%가 사라집니다

같은 결과를 내는 프롬프트를 3,200 토큰에서 1,100 토큰으로 줄인 사례가 있습니다. 설명을 압축하고 예시를 최소화했을 뿐인데 품질은 동일했습니다. 월 50만 건 기준 비용이 $9,600에서 $3,300으로 줄었습니다. 프롬프트 최적화에 투자한 시간이 한 달 안에 회수됩니다. (출처: Medium, AWS Engineering on AWS, 2026.03.10)

이 세 가지를 동시에 적용한 팀의 경우, 월 $9,000 청구액이 $3,392로 줄었습니다. 단순 계산으로 연간 $67,296 절감이고, 작업 시간 40시간을 비용으로 환산하면 ROI가 1,582%입니다.

▲ 목차로 돌아가기

서울 리전에서 쓰면 더 나올 수도 있는 이유

💡 AWS 기술 블로그의 CRIS 분석 자료와 공식 요금표를 같이 펼쳐 놓고 보니, 리전 선택이 요금과 안정성에 동시에 영향을 준다는 부분이 잘 알려지지 않았습니다.

서울 리전(ap-northeast-2)에서 단일 Regional 엔드포인트를 쓰는 경우, 가용성 문제 외에도 요금 측면에서 손해를 볼 수 있습니다. 반면 Global CRIS(글로벌 크로스 리전 추론)를 쓰면 Claude Sonnet 4.5 기준 Regional 대비 약 10% 저렴합니다. Geo CRIS는 반대로 약 10% 프리미엄이 붙습니다. (출처: AWS 기술 블로그, amazon.com, 2026.02.19)

CRIS를 쓰는 또 다른 이유는 Quota Limit입니다. 서울 리전에서 Claude Sonnet 계열을 집중적으로 사용하다 보면 분당 요청 수(RPM)나 토큰 처리량(TPM) 한도에 걸립니다. CRIS는 서울 리전에 장애나 스로틀링이 발생하면 자동으로 도쿄(ap-northeast-1)나 싱가폴(ap-southeast-1)로 라우팅합니다. 서비스 중단 없이 넘어갑니다.

단, 데이터 레지던시 규제(특정 국가 외 데이터 반출 금지)가 있는 서비스라면 Global CRIS 대신 Geo CRIS를 써야 합니다. APAC 내에서만 데이터가 처리되도록 강제할 수 있습니다. 이 경우 10% 프리미엄은 컴플라이언스 비용으로 봐야 합니다. (출처: AWS 기술 블로그, 2026.02.19)

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. AWS Bedrock에 무료 체험 기간이나 프리 티어가 있나요?

공식적으로 명시된 Bedrock 전용 프리 티어는 없습니다. 다만 AWS 신규 계정의 경우 AWS Free Tier 혜택 안에서 일부 서비스 크레딧이 제공될 수 있으나, Bedrock 모델 추론 자체는 무료 구간 없이 첫 호출부터 과금됩니다. 테스트 전에 예산 알림(Budget Alert)을 먼저 설정하는 걸 권장합니다.

Q2. 프로비전드 스루풋을 삭제하지 않으면 계속 과금되나요?

맞습니다. 프로비전드 스루풋은 삭제할 때까지 시간당 요금이 청구됩니다. 약정 기간(1개월, 6개월)이 끝났더라도 삭제하지 않으면 자동 갱신되지는 않지만 과금은 계속됩니다. 공식 문서에도 “결제는 프로비전드 스루풋을 삭제할 때까지 계속됩니다”라고 명시되어 있습니다. (출처: AWS 공식 문서)

Q3. 배치 추론을 쓰면 결과가 늦게 오나요?

배치 추론은 비동기 방식입니다. 요청을 S3에 올리고 처리가 완료된 결과를 S3에서 가져오는 구조라, 실시간 응답이 아닙니다. 일반적으로 수십 분~수 시간 후 결과를 받습니다. 대신 비용이 온디맨드 대비 50% 저렴합니다. 콘텐츠 요약, 데이터 분류, 대량 문서 처리 같은 비실시간 작업에 적합합니다.

Q4. Anthropic 직접 API와 Bedrock 중 어느 쪽이 저렴한가요?

Claude 3.5 Sonnet 기준 토큰 단가는 동일합니다. 입력 $3/백만 토큰, 출력 $15/백만 토큰으로 같습니다. 다만 Bedrock을 선택하면 IAM 권한 관리, CloudWatch 모니터링, VPC 통합 등 AWS 인프라와의 연동이 포함됩니다. AWS 기반 서비스를 운영 중이라면 Bedrock이, 그렇지 않다면 Anthropic 직접 API가 더 단순합니다.

Q5. 서울 리전에서 Claude를 쓸 수 있나요?

서울 리전(ap-northeast-2)을 소스 리전으로 해서 Geo CRIS 또는 Global CRIS를 통해 Claude 모델을 호출할 수 있습니다. 단, 모델 버전에 따라 Geo CRIS 지원 여부가 다릅니다. 예를 들어 Claude Sonnet 4.5는 서울에서 Geo CRIS(APAC)로 직접 연결이 안 되고 Global CRIS를 써야 합니다. 서비스 전에 공식 지원 리전 문서를 확인해야 합니다. (출처: AWS 기술 블로그)

▲ 목차로 돌아가기

마치며

AWS Bedrock 요금에서 가장 많이 보는 실수 두 가지를 짚었습니다. 하나는 프로비전드 스루풋이 무조건 저렴하다는 오해고, 다른 하나는 API 요금만 계산하면 된다는 오해입니다. 둘 다 수치로 확인해 보면 실제와 다릅니다.

Bedrock의 요금 체계는 계속 바뀝니다. 2026년 들어 Priority, Flex 티어가 추가됐고, 배치 할인율도 변동이 있었습니다. 이 포스팅은 2026.03.20 기준으로 작성됐지만, 구체적인 수치는 AWS 공식 요금 페이지에서 직접 확인하는 게 가장 정확합니다.

솔직히 말하면, Bedrock 비용 관리에서 가장 중요한 건 모니터링 셋업입니다. CloudWatch에 예산 알림 하나 걸어두는 것만으로도 예상 외 과금을 막을 수 있습니다. 그 다음이 프롬프트 최적화고, 그 다음이 모델 분리입니다. 순서대로 하면 됩니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

본 포스팅은 2026.03.20 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 정확한 요금 정보는 AWS 공식 요금 페이지에서 직접 확인하세요. 본 포스팅의 수치는 공식 문서 및 실제 사례를 바탕으로 작성됐으나, 개인 또는 기업의 실제 청구액과 다를 수 있습니다.

AWS Bedrock 요금, 계산했는데 3배 나왔습니다

AWS Bedrock 요금 구조, 딱 2가지로 나뉩니다

2026년 모델별 최신 요금표

프로비전드 스루풋이 더 비싼 경우가 있습니다

요금 페이지에 없는 7가지 숨겨진 비용

배치 추론·Priority·Flex 티어, 2026년에 바뀐 것