Gemini 2.5 Pro API 가격, 직접 계산해봤습니다

Published on

in

Gemini 2.5 Pro API 가격, 직접 계산해봤습니다

2026.03.19 기준
gemini-2.5-pro (Gemini Developer API)

Gemini 2.5 Pro API 가격, 직접 계산해봤습니다

표시 가격은 $1.25/1M 토큰입니다. 실제로 써보면 다릅니다. thinking 토큰과 200K 구간 분기가 맞물리면서 청구서는 예상보다 커집니다. 공식 문서 수치를 직접 계산했습니다.

$1.25→$2.50
입력 구간 분기
$10→$15
출력 구간 분기
끌 수 없음
thinking 비활성화

표시 가격 $1.25가 시작점에 불과한 이유

Gemini 2.5 Pro API 가격을 검색하면 첫 화면에 입력 $1.25 / 출력 $10.00 (100만 토큰 기준)이 뜹니다. 많은 정보가 여기서 멈추는데, 이 숫자만 보고 예산을 짜면 실제 청구서에서 당황하기 쉽습니다.

즉, 내가 화면에서 보는 답변 분량 외에 모델이 ‘고민하는 데 쓴 토큰’도 함께 계산됩니다. 이 thinking 토큰은 응답 품질을 높이기 위한 내부 추론 과정인데, API 응답 객체의 thoughtsTokenCount 필드로 확인할 수 있습니다.

💡 공식 가격 문서와 실제 API 응답 로그를 함께 놓고 보니, 같은 질문이라도 복잡도에 따라 thinking 토큰이 실제 답변 토큰의 수 배에 달하는 경우가 나옵니다. 간단한 팩트 질문은 그나마 낫지만, 코딩·수학 문제 유형에서는 차이가 확연해집니다.

▲ 목차로 돌아가기

200K 구간을 넘으면 가격표가 바뀝니다

구분 ≤ 200K 토큰 > 200K 토큰 상승 폭
입력 $1.25 / 1M $2.50 / 1M +100%
출력 (thinking 포함) $10.00 / 1M $15.00 / 1M +50%
캐시 저장 $0.3125 / 1M $0.625 / 1M +100%

200K 토큰이 어느 정도 분량인지 감이 오지 않을 수 있는데, 한국어 기준 약 10만 자 전후입니다. 소설 한 권 분량(200자 원고지 500매)에 해당합니다. 코드베이스를 넣고 작업하거나 긴 문서를 분석하는 경우에는 이 기준을 금방 넘어섭니다. 250K 입력 토큰짜리 요청 하나를 날리면 입력 비용만으로 벌써 $1.25 기준이 아닌 $2.50 기준이 적용됩니다.

▲ 목차로 돌아가기

thinking 토큰, 끄고 싶어도 끌 수 없습니다

공식 문서 원문 (출처: Google AI for Developers / Thinking 가이드, 2026.03 기준)

“N/A: Cannot disable thinking” — Gemini 2.5 Pro thinkingBudget 설정의 Disable thinking 항목

복잡한 코딩 문제를 넣으면 모델이 수천 토큰을 소모해 생각한 뒤 답을 냅니다. 이 thinking 토큰 전부가 출력 가격($10~$15 / 1M) 기준으로 청구됩니다. 답변 자체가 500 토큰이어도, thinking에 2,000 토큰을 썼다면 총 출력 청구는 2,500 토큰 기준입니다. 이게 실제 청구서가 예상보다 커지는 핵심 원인입니다.

▲ 목차로 돌아가기

실제 계산 — 코딩 세션 시나리오로 직접 뽑아봤습니다

가장 자주 쓰이는 두 가지 시나리오로 계산해봤습니다. 모두 Gemini Developer API 공식 가격 기준이고, Batch Mode 미사용 기준입니다.

시나리오 A — 짧은 질의응답 (150K 입력, 2K 출력 + 5K thinking)

입력 비용: 150,000 토큰 × $1.25 / 1,000,000 = $0.1875
출력 비용: (2,000 답변 + 5,000 thinking) × $10.00 / 1,000,000 = $0.07
합계: $0.2575
* 200K 미만 구간이므로 단가 $1.25/$10.00 적용

시나리오 B — 코드베이스 분석 (250K 입력, 3K 출력 + 10K thinking)

입력 비용: 250,000 토큰 × $2.50 / 1,000,000 = $0.625
출력 비용: (3,000 + 10,000) × $15.00 / 1,000,000 = $0.195
합계: $0.82
* 200K 초과 구간 — $2.50/$15.00 적용

시나리오 A → B로 갈 때 단순히 입력이 100K 늘었을 뿐인데 비용은 약 3.2배 뜁니다. 200K 구간 초과 + thinking 토큰 증가가 동시에 작동하기 때문입니다. 이걸 모르고 여러 번 반복 호출하면 하루 예산이 순식간에 소진됩니다.

실제로 Reddit에서는 RooCode와 함께 Gemini 2.5 Pro를 썼다가 하루 $330 청구를 받은 사례가 보고됐습니다. 당사자 설명에 따르면 컨텍스트가 세션마다 500K 토큰을 넘어갔고, 전부 200K 초과 구간 가격이 적용된 데다 thinking 토큰도 함께 누적됐습니다. (출처: r/RooCode, 2025.04.13)

▲ 목차로 돌아가기

Batch Mode 50%, 국내에서 잘 안 알려진 절감 수단

솔직히 말하면 이 부분이 국내 블로그에서 거의 다뤄지지 않았습니다. Gemini API에는 Batch Mode가 있고, 이걸 쓰면 모든 요청이 정가 대비 50% 할인됩니다. (출처: Google AI for Developers Pricing, 2026.03 기준)

구분 일반 Mode Batch Mode
입력 (<200K) $1.25 $0.625
출력 (<200K) $10.00 $5.00
처리 지연 즉시 최대 24시간
SLA 보장 있음 없음

즉각 응답이 필요 없는 작업 — 대량 문서 요약, 데이터 분류, 번역 파이프라인 — 에서는 Batch Mode가 비용을 절반으로 줄입니다. 위 시나리오 B($0.82)를 Batch Mode로 처리하면 약 $0.41로 내려갑니다. 대규모 반복 작업이라면 누적 효과는 상당합니다.

▲ 목차로 돌아가기

Gemini 2.5 Flash, 3 Flash와 비교하면

막상 써보면 이 지점에서 선택이 갈립니다. 성능 대비 비용을 따지면 Gemini 2.5 Pro가 무조건 최선이 아닌 경우도 있습니다. 2026년 3월 기준 공식 가격 비교입니다. (출처: Google AI for Developers Pricing + Vertex AI Pricing, 2026.03 기준)

모델 입력 (1M) 출력 (1M) thinking OFF 컨텍스트 창
Gemini 2.5 Pro $1.25~$2.50 $10~$15 불가 1,048,576
Gemini 2.5 Flash $0.30 $2.50 가능 1,048,576
Gemini 3 Flash $0.50 $3.00 가능 (minimal) 1,048,576
Gemini 3 Pro $2.00~$4.00 $12~$18 불가 1,048,576

💡 Gemini 2.5 Flash는 컨텍스트 창이 동일하게 100만 토큰이면서, 입력 단가가 2.5 Pro의 약 1/4 수준입니다. thinking을 끌 수도 있어 단순 작업에서는 비용 효율이 훨씬 높습니다. 고도의 추론이 필요한 작업이 아니라면 Flash로 시작해서 필요한 경우에만 Pro를 쓰는 게 실질적으로 유리합니다.

단, Gemini 2.5 Pro만의 강점인 고난도 코딩·수학·멀티스텝 에이전트 작업에서는 품질 차이가 있습니다. 이 부분은 생각보다 간단합니다 — 작업 복잡도와 예산을 먼저 정하고, 거기에 맞는 모델을 고르는 게 순서입니다.

▲ 목차로 돌아가기

자주 물어보는 것들

Q1. Gemini 2.5 Pro API는 무료로 쓸 수 있나요?
Google AI Studio 내에서 사용하는 무료 티어는 존재하지만, API를 통해 외부 애플리케이션에서 호출할 경우에는 유료 플랜(Paid Tier)이 필요합니다. 무료 티어에서는 분당 요청 수(RPM)와 일일 요청 수(RPD)가 엄격하게 제한됩니다. 위 가격표는 모두 유료 티어 기준입니다. (출처: Google AI for Developers Pricing, 2026.03)
Q2. thinking 토큰이 얼마나 소모되는지 알 수 있나요?
API 응답 객체의 response.usage_metadata.thoughts_token_count 필드에서 확인할 수 있습니다. 공식 Thinking 가이드에 Python, JavaScript, Go 예제가 모두 나와 있습니다. 실제 사용 전에 테스트 호출로 평균 thinking 토큰을 파악해두는 게 예산 관리에 도움이 됩니다. (출처: Google AI for Developers Thinking 가이드, 2026.03)
Q3. Vertex AI에서 쓰면 가격이 다른가요?
Vertex AI에서도 Gemini 2.5 Pro를 사용할 수 있고, 가격 구조는 동일합니다($1.25/$2.50 입력, $10/$15 출력). 다만 Vertex AI에서는 Context Caching 기능이 별도로 제공되며, 캐시 저장 비용($0.13~$0.25 / 1M)과 스토리지 비용($4.50/시간)이 추가됩니다. 대용량 고정 컨텍스트를 반복 사용하는 경우에는 캐싱이 유리할 수 있습니다. (출처: Google Cloud Vertex AI Pricing, 2026.03)
Q4. Google Search 그라운딩을 함께 쓰면 비용이 얼마나 더 나오나요?
Q5. 비용 한도를 설정할 수 있나요?
Google Cloud Console에서 예산 알림과 결제 한도를 설정할 수 있습니다. 다만 Google API 대시보드는 실시간이 아닌 지연 반영 방식으로 업데이트되는 경우가 있으므로, 비용이 쌓인 뒤 한참 지나서 알림이 오는 경우가 있습니다. 실사용자 커뮤니티에서도 대시보드 지연으로 인한 과금 충격 사례가 보고됐습니다. (출처: r/RooCode 사용자 증언, 2025.04) 중요한 프로덕션 환경이라면 애플리케이션 레벨에서 토큰 수를 직접 카운팅하는 방어 로직을 함께 갖추는 것이 현실적입니다.

▲ 목차로 돌아가기

마치며 — 성능과 비용 사이 어디에 서 있는 모델인가

이게 핵심입니다 — 표시 가격 $1.25만 보고 쓰면 청구서가 예상과 다릅니다. 반면 이 두 가지를 이해하고 작업 유형에 맞게 모델을 고르고 Batch Mode를 활용하면 비용을 상당히 통제할 수 있습니다.

기대했던 것과 달리 Gemini 2.5 Pro가 항상 가성비 선택지는 아닙니다. 하지만 복잡한 작업에서 품질을 최우선으로 놓고 비용 구조를 제대로 파악한 상태에서 쓴다면, 충분히 합리적인 선택입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google AI for Developers — Gemini Developer API Pricing — ai.google.dev/gemini-api/docs/pricing
  2. Google AI for Developers — Gemini Thinking 가이드 — ai.google.dev/gemini-api/docs/thinking
  3. Google Cloud — Vertex AI Generative AI Pricing (KO) — cloud.google.com/vertex-ai/generative-ai/pricing
  4. Reddit r/RooCode — Warning: watch your API costs for Gemini 2.5 Pro Preview — reddit.com/r/RooCode/comments/1jy4ufj
  5. Finout — Gemini Pricing in 2026 for Individuals, Orgs & Developers — finout.io/blog/gemini-pricing-in-2026

본 포스팅은 2026년 03월 19일 기준 Google AI for Developers 공식 문서 및 Vertex AI 공식 가격 문서를 토대로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·가격·UI·기능이 변경될 수 있습니다. 최신 정보는 반드시 공식 문서에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기