gemini-2.5-pro (Gemini Developer API)
Gemini 2.5 Pro API 가격, 직접 계산해봤습니다
표시 가격은 $1.25/1M 토큰입니다. 실제로 써보면 다릅니다. thinking 토큰과 200K 구간 분기가 맞물리면서 청구서는 예상보다 커집니다. 공식 문서 수치를 직접 계산했습니다.
표시 가격 $1.25가 시작점에 불과한 이유
Gemini 2.5 Pro API 가격을 검색하면 첫 화면에 입력 $1.25 / 출력 $10.00 (100만 토큰 기준)이 뜹니다. 많은 정보가 여기서 멈추는데, 이 숫자만 보고 예산을 짜면 실제 청구서에서 당황하기 쉽습니다.
즉, 내가 화면에서 보는 답변 분량 외에 모델이 ‘고민하는 데 쓴 토큰’도 함께 계산됩니다. 이 thinking 토큰은 응답 품질을 높이기 위한 내부 추론 과정인데, API 응답 객체의 thoughtsTokenCount 필드로 확인할 수 있습니다.
💡 공식 가격 문서와 실제 API 응답 로그를 함께 놓고 보니, 같은 질문이라도 복잡도에 따라 thinking 토큰이 실제 답변 토큰의 수 배에 달하는 경우가 나옵니다. 간단한 팩트 질문은 그나마 낫지만, 코딩·수학 문제 유형에서는 차이가 확연해집니다.
200K 구간을 넘으면 가격표가 바뀝니다
| 구분 | ≤ 200K 토큰 | > 200K 토큰 | 상승 폭 |
|---|---|---|---|
| 입력 | $1.25 / 1M | $2.50 / 1M | +100% |
| 출력 (thinking 포함) | $10.00 / 1M | $15.00 / 1M | +50% |
| 캐시 저장 | $0.3125 / 1M | $0.625 / 1M | +100% |
200K 토큰이 어느 정도 분량인지 감이 오지 않을 수 있는데, 한국어 기준 약 10만 자 전후입니다. 소설 한 권 분량(200자 원고지 500매)에 해당합니다. 코드베이스를 넣고 작업하거나 긴 문서를 분석하는 경우에는 이 기준을 금방 넘어섭니다. 250K 입력 토큰짜리 요청 하나를 날리면 입력 비용만으로 벌써 $1.25 기준이 아닌 $2.50 기준이 적용됩니다.
thinking 토큰, 끄고 싶어도 끌 수 없습니다
공식 문서 원문 (출처: Google AI for Developers / Thinking 가이드, 2026.03 기준)
“N/A: Cannot disable thinking” — Gemini 2.5 Pro thinkingBudget 설정의 Disable thinking 항목
복잡한 코딩 문제를 넣으면 모델이 수천 토큰을 소모해 생각한 뒤 답을 냅니다. 이 thinking 토큰 전부가 출력 가격($10~$15 / 1M) 기준으로 청구됩니다. 답변 자체가 500 토큰이어도, thinking에 2,000 토큰을 썼다면 총 출력 청구는 2,500 토큰 기준입니다. 이게 실제 청구서가 예상보다 커지는 핵심 원인입니다.
실제 계산 — 코딩 세션 시나리오로 직접 뽑아봤습니다
가장 자주 쓰이는 두 가지 시나리오로 계산해봤습니다. 모두 Gemini Developer API 공식 가격 기준이고, Batch Mode 미사용 기준입니다.
시나리오 A — 짧은 질의응답 (150K 입력, 2K 출력 + 5K thinking)
출력 비용: (2,000 답변 + 5,000 thinking) × $10.00 / 1,000,000 = $0.07
합계: $0.2575
* 200K 미만 구간이므로 단가 $1.25/$10.00 적용
시나리오 B — 코드베이스 분석 (250K 입력, 3K 출력 + 10K thinking)
출력 비용: (3,000 + 10,000) × $15.00 / 1,000,000 = $0.195
합계: $0.82
* 200K 초과 구간 — $2.50/$15.00 적용
시나리오 A → B로 갈 때 단순히 입력이 100K 늘었을 뿐인데 비용은 약 3.2배 뜁니다. 200K 구간 초과 + thinking 토큰 증가가 동시에 작동하기 때문입니다. 이걸 모르고 여러 번 반복 호출하면 하루 예산이 순식간에 소진됩니다.
실제로 Reddit에서는 RooCode와 함께 Gemini 2.5 Pro를 썼다가 하루 $330 청구를 받은 사례가 보고됐습니다. 당사자 설명에 따르면 컨텍스트가 세션마다 500K 토큰을 넘어갔고, 전부 200K 초과 구간 가격이 적용된 데다 thinking 토큰도 함께 누적됐습니다. (출처: r/RooCode, 2025.04.13)
Batch Mode 50%, 국내에서 잘 안 알려진 절감 수단
솔직히 말하면 이 부분이 국내 블로그에서 거의 다뤄지지 않았습니다. Gemini API에는 Batch Mode가 있고, 이걸 쓰면 모든 요청이 정가 대비 50% 할인됩니다. (출처: Google AI for Developers Pricing, 2026.03 기준)
| 구분 | 일반 Mode | Batch Mode |
|---|---|---|
| 입력 (<200K) | $1.25 | $0.625 |
| 출력 (<200K) | $10.00 | $5.00 |
| 처리 지연 | 즉시 | 최대 24시간 |
| SLA 보장 | 있음 | 없음 |
즉각 응답이 필요 없는 작업 — 대량 문서 요약, 데이터 분류, 번역 파이프라인 — 에서는 Batch Mode가 비용을 절반으로 줄입니다. 위 시나리오 B($0.82)를 Batch Mode로 처리하면 약 $0.41로 내려갑니다. 대규모 반복 작업이라면 누적 효과는 상당합니다.
Gemini 2.5 Flash, 3 Flash와 비교하면
막상 써보면 이 지점에서 선택이 갈립니다. 성능 대비 비용을 따지면 Gemini 2.5 Pro가 무조건 최선이 아닌 경우도 있습니다. 2026년 3월 기준 공식 가격 비교입니다. (출처: Google AI for Developers Pricing + Vertex AI Pricing, 2026.03 기준)
| 모델 | 입력 (1M) | 출력 (1M) | thinking OFF | 컨텍스트 창 |
|---|---|---|---|---|
| Gemini 2.5 Pro | $1.25~$2.50 | $10~$15 | 불가 | 1,048,576 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 가능 | 1,048,576 |
| Gemini 3 Flash | $0.50 | $3.00 | 가능 (minimal) | 1,048,576 |
| Gemini 3 Pro | $2.00~$4.00 | $12~$18 | 불가 | 1,048,576 |
💡 Gemini 2.5 Flash는 컨텍스트 창이 동일하게 100만 토큰이면서, 입력 단가가 2.5 Pro의 약 1/4 수준입니다. thinking을 끌 수도 있어 단순 작업에서는 비용 효율이 훨씬 높습니다. 고도의 추론이 필요한 작업이 아니라면 Flash로 시작해서 필요한 경우에만 Pro를 쓰는 게 실질적으로 유리합니다.
단, Gemini 2.5 Pro만의 강점인 고난도 코딩·수학·멀티스텝 에이전트 작업에서는 품질 차이가 있습니다. 이 부분은 생각보다 간단합니다 — 작업 복잡도와 예산을 먼저 정하고, 거기에 맞는 모델을 고르는 게 순서입니다.
자주 물어보는 것들
Q1. Gemini 2.5 Pro API는 무료로 쓸 수 있나요?
Q2. thinking 토큰이 얼마나 소모되는지 알 수 있나요?
response.usage_metadata.thoughts_token_count 필드에서 확인할 수 있습니다. 공식 Thinking 가이드에 Python, JavaScript, Go 예제가 모두 나와 있습니다. 실제 사용 전에 테스트 호출로 평균 thinking 토큰을 파악해두는 게 예산 관리에 도움이 됩니다. (출처: Google AI for Developers Thinking 가이드, 2026.03)
Q3. Vertex AI에서 쓰면 가격이 다른가요?
Q4. Google Search 그라운딩을 함께 쓰면 비용이 얼마나 더 나오나요?
Q5. 비용 한도를 설정할 수 있나요?
마치며 — 성능과 비용 사이 어디에 서 있는 모델인가
이게 핵심입니다 — 표시 가격 $1.25만 보고 쓰면 청구서가 예상과 다릅니다. 반면 이 두 가지를 이해하고 작업 유형에 맞게 모델을 고르고 Batch Mode를 활용하면 비용을 상당히 통제할 수 있습니다.
기대했던 것과 달리 Gemini 2.5 Pro가 항상 가성비 선택지는 아닙니다. 하지만 복잡한 작업에서 품질을 최우선으로 놓고 비용 구조를 제대로 파악한 상태에서 쓴다면, 충분히 합리적인 선택입니다.
본 포스팅 참고 자료
- Google AI for Developers — Gemini Developer API Pricing — ai.google.dev/gemini-api/docs/pricing
- Google AI for Developers — Gemini Thinking 가이드 — ai.google.dev/gemini-api/docs/thinking
- Google Cloud — Vertex AI Generative AI Pricing (KO) — cloud.google.com/vertex-ai/generative-ai/pricing
- Reddit r/RooCode — Warning: watch your API costs for Gemini 2.5 Pro Preview — reddit.com/r/RooCode/comments/1jy4ufj
- Finout — Gemini Pricing in 2026 for Individuals, Orgs & Developers — finout.io/blog/gemini-pricing-in-2026
본 포스팅은 2026년 03월 19일 기준 Google AI for Developers 공식 문서 및 Vertex AI 공식 가격 문서를 토대로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·가격·UI·기능이 변경될 수 있습니다. 최신 정보는 반드시 공식 문서에서 직접 확인하시기 바랍니다.


댓글 남기기