2026.03.31 기준
Gemini API 공식 가격표 기준
IT/AI

Gemini 2.5 Pro API 요금, 싸다고요? 이 조건에서만 유리합니다

결론부터 말씀드리면, Gemini 2.5 Pro API는 GPT-4o 대비 입력 기준 75% 저렴합니다. 그런데 막상 쓰다 보면 “이게 왜 이렇게 많이 나왔지?” 싶은 상황이 생깁니다. 추론 토큰 과금, 컨텍스트 캐싱 저장비, 200K 초과 이중요금 — 이 세 가지가 한꺼번에 걸리면 최저가가 아닌 최고가 요금제가 됩니다. 공식 가격표와 실제 사용 구조를 같이 놓고 보니 이런 차이가 보였습니다.

$1.25

입력 100만 토큰당 (200K 이하)

$10.00

출력 100만 토큰당 (추론 포함)

최대 50%↓

배치 API 적용 시

Gemini 2.5 Pro API 요금 — 모델별 가격표 한눈에

Gemini API 공식 가격표(ai.google.dev/gemini-api/docs/pricing, 2026.03.31 기준)를 기준으로 주요 모델을 정리했습니다. 같은 Google 에코시스템이라도 Gemini Developer API(무료·유료 티어)와 Vertex AI 기준이 다르고, 모델 세대마다 가격 차이가 큽니다.

모델	입력 /MTok (≤200K)	출력 /MTok (≤200K)	배치 입력	배치 출력
Gemini 3.1 Pro Preview	$2.00	$12.00	$1.00	$6.00
Gemini 2.5 Pro ★	$1.25	$10.00	$0.625	$5.00
Gemini 2.5 Flash	$0.30	$2.50	$0.15	$1.25
Gemini 2.5 Flash-Lite	$0.10	$0.40	$0.05	$0.20
Gemini 2.0 Flash	$0.10	$0.40	$0.05	$0.20

(출처: Google AI Developer Gemini API 공식 가격표, 2026.03.31)

표에서 보이는 것처럼 Gemini 2.5 Pro는 최신 Gemini 3.1 Pro Preview 대비 입력은 37.5%, 출력은 17% 저렴합니다. 그런데 가격표만 보고 “2.5 Pro가 무조건 싸다”고 판단하기엔 이른 이유가 있습니다. 다음 섹션에서 하나씩 짚어보겠습니다.

▲ 목차로 돌아가기

추론 토큰이 출력 요금에 합산되는 구조

Gemini 2.5 Pro는 기본적으로 추론 기능(Thinking)이 켜진 상태로 작동합니다. 공식 문서(cloud.google.com Vertex AI, 2026.03.31)에는 이렇게 나옵니다.

💡 공식 문서와 실제 토큰 소비 흐름을 같이 놓고 보니 이런 차이가 보였습니다

“Gemini 3 Pro, Gemini 2.5 Pro와 같은 일부 모델의 경우 사고가 기본적으로 사용 설정되어 있으며 이러한 토큰에 대해 요금이 청구됩니다.” (출처: Google Cloud Vertex AI 공식 문서, 2026.03.31)

추론 토큰이 많아질수록 비용이 비선형으로 늘어납니다

출력 가격표에는 “Output price (including thinking tokens)”라고 명시돼 있습니다. 모델이 내부적으로 1,000 토큰을 생각하고 실제 200 토큰짜리 답변만 내보내더라도, 1,200 토큰 전체가 $10/MTok 기준으로 과금됩니다. 복잡한 수학 문제나 코드 디버깅을 시킬수록 추론 토큰이 수천 개씩 늘어납니다. 간단한 질의응답에서는 눈에 안 띄지만, 프로덕션 레벨 에이전트 파이프라인에서는 이 구조 때문에 예상 대비 2~3배 청구가 나오는 사례가 보고됩니다.

thinkingBudget으로 추론 한도를 제한할 수 있습니다

Gemini 2.5 시리즈는 thinkingBudget 파라미터로 추론에 사용할 최대 토큰 수를 지정할 수 있습니다(출처: ai.google.dev/gemini-api/docs/thinking). 예산에 맞게 추론 토큰 상한을 설정해두지 않으면, 모델이 스스로 판단해 최대 수만 토큰을 소비할 수 있습니다. 고정 예산으로 운영하는 서비스라면 이 파라미터를 반드시 설정해야 합니다.

▲ 목차로 돌아가기

200K 초과하면 요금이 두 배가 됩니다

Gemini 2.5 Pro는 최대 1,048,576 토큰(약 100만)을 지원하는 초장문 컨텍스트 윈도우가 강점입니다. 그런데 공식 가격표에는 이 부분이 분명하게 나와 있습니다.

⚠️ 200K 초과 시 적용 요금 (출처: ai.google.dev 공식 가격표, 2026.03.31)

입력 가격: $1.25 → $2.50/MTok (2배)
출력 가격: $10.00 → $15.00/MTok (50% 인상)

코드베이스 분석이나 긴 PDF 처리 시 조용히 구간을 넘어버립니다

200,000 토큰은 A4 기준 약 160~200페이지 분량입니다. 대형 코드 저장소를 통째로 넣거나, 계약서·보고서 묶음을 처리하는 파이프라인에서는 의식하지 않아도 이 구간을 넘기기 쉽습니다. 넘어가는 순간 해당 요청 전체의 토큰에 장문 컨텍스트 요금이 적용됩니다.

직접 계산해볼 수 있는 실제 시나리오입니다

예를 들어 250,000 토큰 입력 + 2,000 토큰 출력(추론 포함) 요청 1건이라면:

📐 요금 계산 (200K 초과 구간 적용)

입력 250,000토큰 × $2.50/MTok = $0.000625

출력 2,000토큰 × $15.00/MTok = $0.00003

동일 작업을 200K 이하로 쪼갰다면: 250K × $1.25 = $0.0003125 → 2배 차이

하루 1,000건 처리 기준으로 200K 초과 여부가 월 비용을 2배로 갈라놓을 수 있다는 뜻입니다.

▲ 목차로 돌아가기

컨텍스트 캐싱, 90% 절감이 역효과 나는 조건

컨텍스트 캐싱은 반복 전송되는 시스템 프롬프트나 문서를 저장해 이후 요청에서 입력 토큰 비용을 크게 줄여주는 기능입니다. 실제로 90%까지 절감된다는 후기가 있습니다. 그런데 공식 문서에는 이렇게도 나옵니다.

💡 캐싱 저장 비용은 사용 여부와 무관하게 시간 단위로 누적됩니다

캐시 저장 비용: $4.50 / 100만 토큰 / 시간 (출처: ai.google.dev 공식 가격표, 2026.03.31)

하루 종일 켜두면 저장 비용만으로 적자가 날 수 있습니다

예를 들어 1,000만 토큰짜리 대형 코드베이스를 캐싱하면 시간당 $45, 하루 24시간 유지 시 $1,080의 저장 비용이 발생합니다. 이 캐시를 실제로 하루에 수백 번 활용해 $1,080 이상의 입력 토큰 비용을 절감하지 못하면 오히려 손해입니다. 소규모 트래픽이나 주기적 배치 처리에서는 캐싱이 되레 비용을 높일 수 있습니다.

캐싱이 유리한 조건과 불리한 조건

구분	조건	권장 여부
✅ 유리	분당 50회 이상 동일 컨텍스트 재사용, 시스템 프롬프트가 10K+ 토큰	캐싱 사용
❌ 불리	일 100건 미만, 장기 유지 후 간헐적 사용	캐싱 비권장

Google은 암묵적 캐싱(Implicit Caching)도 제공하는데, 이 경우 저장 비용이 발생하지 않는 대신 캐시 히트를 보장하지 않습니다. 명시적 캐싱보다 불확실하지만, 간헐적 사용 패턴에서는 명시적 캐싱보다 안전한 선택입니다.

▲ 목차로 돌아가기

배치 API로 50% 아끼는 실전 시나리오

공식 가격표에 명시된 Batch API는 응답을 24시간 내로 처리받는 대신 입출력 토큰 모두에 50% 할인을 적용합니다. Gemini 2.5 Pro 기준 배치 입력은 $0.625/MTok, 출력은 $5.00/MTok으로 내려갑니다. 실시간 응답이 필요 없는 작업이라면 이게 가장 직접적인 절감 방법입니다.

배치 API가 실질적으로 효과 있는 작업 유형

문서 요약, 대량 분류, 야간 리포트 생성, 데이터셋 전처리가 대표적입니다. 반면 사용자가 실시간 응답을 기다리는 챗봇이나 에이전트 파이프라인에서는 24시간 지연 특성상 배치 API를 적용하기 어렵습니다. 월 10만 건, 건당 평균 1,000 입력 + 500 출력 토큰 기준으로 일반 API와 배치 API 비용을 직접 계산하면:

📐 월 10만 건 처리 시 절감 계산

일반 API: (1K × $1.25 + 0.5K × $10.00) / 1M × 100,000건 = 약 $62.5

배치 API: (1K × $0.625 + 0.5K × $5.00) / 1M × 100,000건 = 약 $31.25 (50% 절감)

연간으로 환산하면 약 $375 차이가 납니다. 처리량이 많을수록 절감 폭은 선형으로 늘어납니다.

▲ 목차로 돌아가기

GPT-4o · Claude Opus와 실제 비용 비교

2026년 2월 기준 주요 LLM API 플래그십 모델 가격 비교입니다. 수치는 blog.laozhang.ai의 2026.02.26 기준 자료와 공식 가격표 교차 확인을 통해 정리했습니다.

제공사	모델	입력 /MTok	출력 /MTok	강점
Google	Gemini 2.5 Pro	$1.25	$10.00	긴 컨텍스트, 멀티모달
OpenAI	GPT-4o	$5.00	$15.00	에코시스템, 플러그인
Anthropic	Claude Opus	$15.00	$75.00	정교한 지시 따르기
xAI	Grok	$0.20	$0.50	저예산 대량 처리

(출처: 각 사 공식 가격표, 2026.02 기준, blog.laozhang.ai 교차 검증)

입력 토큰만 보면 Gemini 2.5 Pro는 GPT-4o보다 75% 저렴하고 Claude Opus 대비로는 91% 저렴합니다. 그런데 출력 기준으로는 GPT-4o($15)와의 격차가 $5로 좁혀집니다. 추론 토큰이 대거 발생하는 복잡한 작업이라면 이 차이는 더욱 좁혀질 수 있습니다. “입력만 많은” 문서 처리 파이프라인에서는 Gemini 2.5 Pro가 압도적으로 유리하지만, “출력을 많이 뽑아내는” 콘텐츠 생성 작업에서는 그 이점이 상대적으로 줄어듭니다.

▲ 목차로 돌아가기

무료 티어의 숨겨진 조건 — 공식 약관에 직접 나와 있습니다

Gemini API 무료 티어는 신용카드 없이 6개 모델을 쓸 수 있고, 일일 최대 1,000 요청까지 무료입니다. 개발·프로토타입 단계에서 매우 유용한 제도입니다. 그런데 무료 티어 가격표 항목에는 공식적으로 이런 표시가 붙어 있습니다.

💡 무료 티어 약관 원문을 그대로 확인했습니다

“Used to improve our products: Yes” (출처: ai.google.dev/gemini-api/docs/pricing, 무료 티어 항목, 2026.03.31) — 유료 티어는 동일 항목이 No.

무료 티어에서 보낸 프롬프트는 모델 개선에 활용될 수 있습니다

프로토타입 테스트에서 실제 고객 데이터, 내부 코드, 계약서 등을 무료 티어로 처리하는 경우가 종종 있습니다. “어차피 테스트니까”라는 판단이 데이터 프라이버시 리스크로 이어질 수 있는 지점입니다. 개인 학습이나 공개 데이터 작업이라면 무료 티어가 충분히 합리적이지만, 기업 환경에서 민감 정보를 다룬다면 유료 티어(또는 Vertex AI Enterprise)로 시작해야 합니다.

무료 티어에서 유료로 올라가는 3단계 구조

Tier 1은 결제 계정 등록만 해도 활성화됩니다(최소 사용 금액 없음). RPM이 150~300으로 오릅니다. Tier 2는 30일간 누적 $250 이상 사용 시 진입되며 RPM 1,000 이상이 됩니다. Tier 3는 $1,000 이상 누적 사용 시 적용되는 엔터프라이즈급입니다. 프로덕션 서비스라면 결제 수단만 등록해두어도 Tier 1로 올라가 속도 제한 문제를 상당히 줄일 수 있습니다.

▲ 목차로 돌아가기

Q&A

Q1. Gemini 2.5 Pro와 Gemini 3.1 Pro Preview 중 어느 걸 써야 하나요?

비용 우선이라면 Gemini 2.5 Pro($1.25/$10)가 유리합니다. Gemini 3.1 Pro Preview($2.00/$12)는 최신 성능이 필요한 경우, 즉 최첨단 추론·코딩 결과가 필수인 프로덕션 환경에 적합합니다. Preview 모델은 사전 예고 없이 변경될 수 있다는 점도 고려해야 합니다.

Q2. 컨텍스트 캐싱을 쓰면 항상 비용이 줄어드나요?

아닙니다. 캐시 저장 비용이 시간당 $4.50/MTok으로 부과되기 때문에 캐시를 자주 활용하지 않으면 오히려 더 비싸질 수 있습니다. 일일 요청 수가 적거나 간헐적으로 사용하는 경우라면 명시적 캐싱 대신 암묵적 캐싱(Implicit Caching)이나 캐싱 없이 직접 요청하는 방식이 더 경제적입니다.

Q3. 무료 티어에서 민감한 데이터를 써도 되나요?

권장하지 않습니다. 공식 가격표에 무료 티어는 “Used to improve our products: Yes”로 명시돼 있습니다(출처: ai.google.dev). 기업 내부 정보, 계약서, 코드 등은 유료 티어에서 처리해야 합니다. 유료 티어는 동일 항목이 “No”로 표시됩니다.

Q4. 추론(Thinking) 기능을 끄면 요금이 줄어드나요?

직접 끄기보다는 thinkingBudget 파라미터로 추론 토큰 수 상한을 제한하는 방식을 공식 문서에서 권장합니다. 추론 토큰은 출력 요금($10/MTok)에 합산되므로, 단순 분류나 짧은 답변 작업에서는 상한을 낮게 설정해 비용을 조절할 수 있습니다.

Q5. Gemini Developer API와 Vertex AI 중 어디를 써야 하나요?

개인 개발자·스타트업이라면 Google AI Studio 기반의 Developer API가 진입 장벽이 낮고 무료 티어도 제공됩니다. 기업 규모 이상이라면 Vertex AI를 통한 Enterprise 플랜이 전용 지원·보안·컴플라이언스 요건을 충족합니다. 가격 구조는 동일 모델 기준으로 크게 다르지 않지만, Vertex AI는 Priority(응답 속도 우선) 및 Flex/Batch 등 더 세분화된 요금 옵션을 제공합니다.

▲ 목차로 돌아가기

마치며

Gemini 2.5 Pro API 요금은 분명히 경쟁사 대비 저렴한 구조를 갖고 있습니다. GPT-4o보다 75% 싸고, Claude Opus와 비교하면 차이가 더 납니다. 그런데 이 글에서 확인한 것처럼, 세 가지 조건이 맞물리면 이 이점이 상당 부분 희석됩니다.

추론 토큰이 출력 요금에 합산되는 구조, 200K 초과 시 입력이 두 배가 되는 구간 요금, 그리고 컨텍스트 캐싱의 시간당 저장 과금 — 이 세 가지를 미리 알고 있으면 파이프라인 설계 단계에서 충분히 대응할 수 있습니다. thinkingBudget을 설정하고, 요청을 200K 이하로 나누고, 캐싱은 트래픽이 충분할 때만 쓰는 것만으로도 예상 외 청구서를 피할 수 있습니다.

솔직히 말하면, 가격표 숫자만 보고 “Gemini가 제일 싸다”고 단정하는 건 너무 이릅니다. 어떤 작업을 얼마나 자주, 얼마나 긴 컨텍스트로 처리하느냐에 따라 최적의 모델은 달라집니다. 일단 Google AI Studio 무료 티어로 직접 토큰 카운팅을 해보고 판단하는 게 가장 빠릅니다.

📚 본 포스팅 참고 자료

Google AI Developer — Gemini API 공식 가격표 (ai.google.dev/gemini-api/docs/pricing)
Google Cloud — Vertex AI Generative AI 가격표 (cloud.google.com/vertex-ai/generative-ai/pricing)
Google AI for Developers — Gemini Thinking 공식 문서 (ai.google.dev/gemini-api/docs/thinking)
LaoZhang AI Blog — Gemini API Pricing 비교 분석 2026.02.26 (blog.laozhang.ai)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API 요금은 Google이 사전 고지 없이 변경할 수 있으므로, 정확한 최신 가격은 반드시 공식 가격표(ai.google.dev/gemini-api/docs/pricing)에서 직접 확인하시기 바랍니다. 본 글의 수치는 2026년 3월 31일 기준 공식 문서를 바탕으로 작성되었습니다.

Gemini 2.5 Pro API 요금, 싸다고요? 이 조건에서만 유리합니다

Gemini 2.5 Pro API 요금 — 모델별 가격표 한눈에