Gemini 2.5 Pro (gemini-2.5-pro-preview)
Google AI Developer API 기준
Gemini 2.5 Pro API 비용,
싼 줄 알았는데 이게 빠졌습니다
입력 $1.25/1M 토큰이라는 숫자만 보고 저렴하다고 생각했습니다. 그런데 막상 청구서를 보니 예상보다 훨씬 많았습니다. 이유는 하나였습니다 — Thinking 토큰. 공식 문서에 있지만 대부분의 블로그에서 빠진 부분입니다.
공식 가격표, 어디서 봐야 하나요?
Gemini 2.5 Pro API 비용의 공식 기준은 Google AI for Developers 가격 페이지입니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.21 기준)
| 항목 | ≤ 200,000 토큰 | > 200,000 토큰 |
|---|---|---|
| 입력 (텍스트/이미지) | $1.25 / 1M 토큰 | $2.50 / 1M 토큰 |
| 출력 (Thinking 포함) | $10.00 / 1M 토큰 | $15.00 / 1M 토큰 |
| 컨텍스트 캐싱 | $0.31 / 1M (≤200k) | $0.625 / 1M (>200k) |
| 캐시 스토리지 | $4.50 / 시간 (1M 토큰당) | |
표를 보면 입력 요금이 Claude Sonnet 4.6의 $3/1M보다 절반도 안 됩니다. GPT-4o($2.50/1M)보다도 저렴합니다. 그런데 문제는 출력 쪽, 특히 Thinking 토큰이 출력 요금으로 청구된다는 점입니다. 이 부분이 청구서를 예상 밖으로 만드는 핵심입니다.
“hi” 한 마디에 청구된 것들
개발자 Simon Willison이 Gemini 2.5 Pro Preview에 “hi”라고 입력했을 때 실제 청구 내역을 공개했습니다. (출처: simonwillison.net, 2025.04.04)
출력 토큰 623개 중 613개가 모델이 내부에서 ‘생각하는’ 토큰이었습니다. 실제 답변 토큰은 10개뿐입니다. 그런데 Thinking 토큰 613개 전부 출력 요금($10/1M) 기준으로 과금됩니다. “hi” 하나에 발생한 비용은 0.006232달러로 자체는 작지만, 이게 수백만 번의 요청이 되면 이야기가 달라집니다.
하루 1,000번 요청 × 평균 출력 600 Thinking 토큰 = 60만 토큰/일
60만 ÷ 100만 × $10.00 = 하루 $6.00 (약 8,700원) — Thinking 토큰만으로 발생
한 달이면 약 $180(약 26만 원)입니다.
Thinking 토큰을 끌 수 없는 이유
2.5 Flash는 thinkingBudget=0으로 Thinking을 완전히 끌 수 있습니다. 그런데 2.5 Pro는 이 옵션이 지원되지 않습니다. 공식 문서에 명확히 적혀 있습니다. (출처: ai.google.dev/gemini-api/docs/thinking, 2026.03 기준)
| 모델 | Thinking OFF 가능? | 제어 방식 | 기본 동작 |
|---|---|---|---|
| 2.5 Pro | ❌ 불가능 | thinkingBudget 128~32768 |
Dynamic (항상 켜짐) |
| 2.5 Flash | ✅ 가능 | thinkingBudget=0 |
Dynamic (기본) |
| 2.5 Flash-Lite | ✅ 가능 | thinkingBudget=0 |
Thinking 없음 (기본) |
2.5 Pro에서 할 수 있는 건 예산 범위를 128~32,768 사이에서 지정하거나, 기본값인 Dynamic(-1)을 유지하는 것뿐입니다. 단순한 작업에도 모델이 자체 판단으로 수백~수천 개의 Thinking 토큰을 사용합니다. 비용 통제가 어렵다는 게 가장 큰 실사용 한계입니다.
200k 초과 순간, 비용이 달라집니다
Gemini 2.5 Pro의 컨텍스트 윈도우는 최대 100만 토큰입니다. 그런데 200,000 토큰을 넘는 순간 입력 요금이 두 배, 출력 요금은 1.5배로 뜁니다. (출처: ai.google.dev/gemini-api/docs/pricing)
고작 20,000 토큰 차이인데 비용은 두 배 이상 납니다.
이 구간을 넘어가는 상황은 생각보다 쉽게 발생합니다. 긴 코드베이스, PDF 전체 업로드, 채팅 히스토리 누적 등이 해당됩니다. 200k 근처에서 컨텍스트를 관리하거나 캐싱($0.31~$0.625/1M)을 적극 활용하는 게 핵심입니다.
Experimental과 Preview, 실제 차이
Gemini 2.5 Pro에는 모델 ID가 두 개 존재합니다. gemini-2.5-pro-exp-03-25와 gemini-2.5-pro-preview-03-25입니다. Google 공식 발표에 따르면 Experimental 버전은 무료이지만, 데이터가 Google 서비스 개선에 활용됩니다. Preview 버전은 유료이고 데이터 학습에 사용되지 않습니다. (출처: Google Official Blog, 2025.04.04)
| 구분 | Experimental (무료) | Preview (유료) |
|---|---|---|
| 모델 ID 예시 | gemini-2.5-pro-exp-03-25 |
gemini-2.5-pro-preview-03-25 |
| 요금 | 무료 | 과금됨 |
| RPM / 일 한도 | 5 RPM / 25 RPD | 150 RPM / 1,000 RPD (Tier 1) |
| 데이터 학습 활용 | ✅ 사용됨 | ❌ 사용 안 됨 |
| 속도 제한 해제 조건 | 해제 불가 | 누적 $250 사용 시 Tier 2로 |
프로토타입이나 개인 테스트 목적이라면 Experimental로 충분합니다. 그러나 하루 25회라는 한도는 프로덕션 환경에서 쓰기엔 너무 낮습니다. 기업·서비스 환경이라면 Preview 요금제를 써야 하고, 비용을 절감하려면 Tier 2 이상으로 올려 속도 제한을 푸는 게 오히려 더 효율적입니다.
실제 비용을 낮추는 세 가지 방법
공식 문서와 실제 사용 사례를 교차해서 보니, 비용을 줄이는 방법은 세 가지로 좁혀집니다.
① Thinking Budget을 최솟값(128)으로 고정하기
끌 수는 없어도 최소화는 됩니다. thinkingBudget=128으로 설정하면 모델이 최소한의 사고만 하도록 유도할 수 있습니다. 단순 분류·요약 작업에 이걸 적용하면 Thinking 토큰 사용량이 크게 줄어듭니다. 복잡한 추론이 필요한 작업엔 써선 안 됩니다.
② Batch 모드 — 50% 할인이 그냥 있습니다
실시간 응답이 필요 없는 작업(데이터 전처리, 대량 번역, 문서 분류 등)은 Batch 모드를 쓰면 됩니다. 입력·출력 모두 50% 할인이 적용됩니다. 최대 24시간 지연은 있지만 비용은 정확히 절반입니다. (출처: ai.google.dev/gemini-api/docs/pricing) 프로덕션에서 이걸 안 쓰는 건 손해입니다.
③ 200k 아래로 컨텍스트 유지 + 캐싱 활용
200k 기준을 넘으면 출력 요금이 $10→$15로 오릅니다. 반복적으로 넘어가는 경우라면, 공통 컨텍스트(시스템 프롬프트, 긴 문서)를 캐시로 등록하면 캐시된 토큰은 입력 요금의 약 25% 수준($0.31/1M)으로 줄어듭니다. 같은 문서를 반복 호출하는 구조라면 캐싱이 실질적인 절감 수단입니다.
자주 나오는 질문들
마치며
Gemini 2.5 Pro의 입력 단가는 분명히 경쟁 모델 대비 낮습니다. 그러나 Thinking 토큰이 출력 요금으로 과금되고, 2.5 Pro에서는 끌 수조차 없다는 건 실제 청구서를 받기 전까지 체감하기 어렵습니다. Simon Willison의 실측처럼, 입력 2토큰에 출력 623토큰이 나오는 구조입니다.
쓸 일이 있다면 먼저 AI Studio에서 Thinking 토큰 사용량을 직접 확인해보고, 작업 유형에 맞게 2.5 Flash와 역할 분담을 설계하는 게 현실적입니다. 무조건 Pro를 쓰는 게 아니라, 정말 깊은 추론이 필요한 일에만 쓸 때 비용 대비 가치가 납니다.
📎 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Google Gemini API의 요금 및 기능은 Google의 정책에 따라 사전 고지 없이 변경될 수 있으므로, 최신 정보는 공식 가격 페이지에서 반드시 확인하시기 바랍니다. 본 내용은 정보 제공 목적으로 작성되었으며 투자·서비스 선택에 대한 책임은 본인에게 있습니다.

댓글 남기기