“무료 티어 있고, Thinking도 자동 처리된다”고 알고 시작했다가 청구서 보고 당황했습니다.
공식 문서를 직접 뜯어보니 예상과 다른 부분이 정확히 3곳에서 나왔습니다.
결론부터 말씀드리면, Gemini 2.5 Pro API 가격은 컨텍스트 길이에 따라 두 구간으로 나뉩니다.
200K 토큰 이하일 때와 초과할 때 가격이 다르고, 이 차이를 모르면 긴 문서를 넣는 순간 예상보다 2배 비용이 나옵니다.
| 항목 | ≤ 200K 토큰 | > 200K 토큰 |
|---|---|---|
| 입력 가격 (1M토큰) | $1.25 | $2.50 |
| 출력 가격 (thinking 포함, 1M토큰) | $10.00 | $15.00 |
| 컨텍스트 캐싱 (1M토큰) | $0.125 | $0.25 |
| 캐싱 스토리지 (1M토큰/시간) | $4.50 | |
| 무료 티어 | ❌ 현재 없음 | |
(출처: Google Gemini Developer API 공식 가격 페이지, ai.google.dev/gemini-api/docs/pricing, 2026.03.18 기준)
200K 토큰을 넘는 순간 출력 단가가 $10 → $15로 뛰어오릅니다. 한 번 호출에 긴 PDF나 코드베이스를 넣으면 그 자체로 구간이 달라질 수 있습니다.
Thinking 토큰, 기본값이 ON이라는 게 문제입니다
처음 보면 “당연한 얘기 아닌가” 싶지만, 직접 써보면 의미가 달라집니다.
모델이 답을 생성하기 전 내부적으로 수행하는 추론 과정 전체가 출력 토큰으로 집계되고, 그게 보이지 않는 채로 청구서에 오릅니다.
💡 공식 문서와 실제 청구 흐름을 같이 놓고 보니 이 부분이 눈에 들어왔습니다.
무려 5.8배 차이가 났다는 실사용 보고가 Reddit에서 확인됩니다.
(출처: r/Bard, Gemini 2.5 Flash Preview API pricing 스레드, 2025.04.30)
Thinking ON ÷ Thinking OFF = $3.50 ÷ $0.60 ≈ 5.8배. 같은 프롬프트에 이 차이가 납니다.
thinkingBudget=0 파라미터를 넣으면
400 INVALID_ARGUMENT 오류가 반환됩니다.
(출처: Google AI Developers Forum, 2025.08.04)
Thinking 비용을 줄이고 싶다면 Pro가 아닌 Flash를 써야 하는 이유가 여기에 있습니다.
“복잡한 질문에만 thinking이 발동한다”는 인식도 막상 다릅니다.
실제로는 간단한 분류 태스크에서도 thinking 토큰이 수천 개 발생하는 경우가 보고됩니다.
(출처: GitHub googleapis/python-genai issue #782, 2025.05)
단순 작업은 Flash 계열로 분리하는 게 훨씬 낫습니다.
무료 티어는 사라졌습니다 — 공식 포럼에서 확인한 경위
“Gemini 2.5 Pro는 무료 티어 있잖아요”라고 알고 있다면, 지금은 맞지 않습니다.
2025년 12월 6일, Google은 사전 공지 없이 Gemini 2.5 Pro의 무료 API 할당량을 완전히 제거했습니다.
📋 Google 공식 포럼에 달린 Google 직원의 답변 (원문 요약)
“2.5 Pro 무료 한도는 원래 주말 한시적 제공이었습니다. Gemini 3.0 Pro와 Nano Banana Pro에 수요가 몰려 용량을 이동했습니다. 무료 티어는 서비스 보장이 없는 unstable 환경이며, 언제든 꺼질 수 있습니다.”
(출처: Google AI Developers Forum, discuss.ai.google.dev, 2025.12.07)
공지 없이 하루아침에 사라졌습니다. 이미 프로덕션에 무료 티어로 연동해 두었던 개발자들은 n8n 워크플로우가 멈추고, 사이드 프로젝트가 응답 불가 상태가 됐습니다.
Google 직원이 공식 포럼에서 직접 밝힌 내용이기 때문에, “곧 복구되겠지”라는 기대는 현재로서는 근거가 없습니다.
현재 2026년 3월 기준, Gemini 2.5 Pro의 무료 티어는 공식 가격 페이지에 “Not available”로 표기됩니다.
(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.18)
Flash 계열은 여전히 무료로 제공되지만, 일 요청 한도가 대폭 줄어든 상태입니다.
배치 모드 50% 절감, 조건이 있습니다
배치(Batch) API를 쓰면 비용이 반으로 줄어든다고 알려져 있습니다. 맞습니다.
공식 문서 기준으로 Gemini 2.5 Pro 배치 모드 가격은 입력 $0.625, 출력 $5.00(1M 토큰, ≤200K)으로, 표준 모드 대비 정확히 50% 수준입니다.
(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.18)
⚠️ 배치 모드에서 Thinking이 켜지면 계산이 달라집니다
배치 출력 단가 $5.00은 thinking 토큰을 포함한 가격입니다.
thinking이 많이 발동하는 복잡한 프롬프트에서는 절감 효과가 기대보다 작아질 수 있습니다.
단순 분류·요약 같은 태스크에 Thinking을 끌 수 있는 Flash-Lite를 배치로 사용하면
입력 $0.05, 출력 $0.20까지 내려갑니다. Pro 배치 대비 약 25배 저렴합니다.
배치 모드는 24시간 이내 처리를 보장하는 비동기 방식이라 실시간 응답이 필요한 서비스엔 쓸 수 없습니다.
대용량 문서 처리, 야간 배치 분석, 데이터셋 평가 같은 용도에서만 의미가 있습니다.
이미 production에서 실시간으로 Pro를 호출하고 있다면 배치 전환은 현실적으로 어렵습니다.
| 모델 | 모드 | 입력 (1M) | 출력 (1M) |
|---|---|---|---|
| 2.5 Pro | 표준 | $1.25 | $10.00 |
| 2.5 Pro | 배치 | $0.625 | $5.00 |
| 2.5 Flash | 표준 | $0.30 | $2.50 |
| 2.5 Flash-Lite | 배치 | $0.05 | $0.20 |
※ 모든 가격은 컨텍스트 ≤200K 기준 / 출처: ai.google.dev/gemini-api/docs/pricing
“Pro가 성능이 좋으니 Pro를 쓰자”는 판단 전에 비용 차이를 실제 숫자로 보는 게 맞습니다.
동일하게 1M 입력 + 1M 출력 토큰을 쓴다고 가정하면 모델별 차이가 이렇습니다.
📊 1M입력 + 1M출력 기준 단순 계산 (≤200K 표준 모드)
- 2.5 Pro: $1.25 + $10.00 = $11.25
- 2.5 Flash: $0.30 + $2.50 = $2.80
- 2.5 Flash-Lite: $0.10 + $0.40 = $0.50
Pro 대비 Flash는 약 4분의 1, Flash-Lite는 약 22분의 1 수준입니다.
물론 모델 선택은 비용만으로 결정할 수 없습니다. 코딩 에이전트, 복잡한 추론, 수학 문제 풀이처럼 긴 사고 과정이 필요한 태스크는 Pro의 Thinking 기능이 실제로 다른 결과를 줍니다.
그러나 고객 응대 챗봇, 간단한 요약, 텍스트 분류처럼 단순 작업까지 Pro로 돌리는 건 낭비에 가깝습니다.
컨텍스트 캐싱도 Pro에서는 유효합니다. 동일한 시스템 프롬프트나 대용량 문서를 반복 호출한다면 첫 번째 호출 이후에는 캐싱 단가($0.125/1M)로 입력 비용이 확 줄어듭니다.
단, 캐시 저장 요금($4.50/1M 토큰·시간)은 별도로 붙습니다.
실제로 청구서를 낮추는 방법 3가지
공식 문서와 실제 사용 보고를 교차해서 보니 비용 절감에 실질적으로 효과 있는 방법이 3가지로 압축됩니다.
Flash로 먼저 분류하고, Pro는 필요한 요청에만 쓰기
들어오는 요청 전부를 Pro로 넘기지 말고, Flash-Lite로 1차 분류 후 고난도 요청만 Pro로 라우팅하는 구조가 가장 효율적입니다.
Flash-Lite 입력 단가는 Pro의 8분의 1 수준($0.10 vs $1.25)이기 때문에 분류 비용은 거의 무시할 수 있습니다.
시스템 프롬프트는 컨텍스트 캐싱으로 고정하기
긴 시스템 프롬프트나 회사 문서를 매 호출마다 전송하면 입력 토큰이 매번 쌓입니다.
캐싱 단가($0.125/1M)는 표준 입력($1.25/1M)의 10분의 1 수준이라 반복 호출 패턴에서 즉각적인 절감이 생깁니다.
최소 1,024 토큰 이상이어야 캐싱이 적용됩니다.
(출처: ai.google.dev/gemini-api/docs/pricing)
Google Cloud 결제 알림 설정은 시작 전에 반드시
Google Cloud Console → 결제 → 예산 및 알림에서 일 예산과 50%/90%/100% 알림을 설정해두면 피해를 최소화할 수 있습니다.
이건 옵션이 아닙니다.
Q&A
Q1. Gemini 2.5 Pro API 가격은 지금도 $1.25/1M 토큰인가요?
2026년 3월 21일 기준으로는 그렇습니다. 컨텍스트 200K 이하 기준 입력 $1.25, 출력 $10.00입니다.
다만 가격은 업데이트가 잦고, 2025년 4월 Gemini 3.1 Pro 프리뷰 공개 이후 2.5 Pro 단가가 조정될 가능성도 있습니다.
정확한 수치는 ai.google.dev/gemini-api/docs/pricing에서 직접 확인하는 게 맞습니다.
Q2. Gemini 2.5 Pro 무료 티어가 다시 생길 가능성은 있나요?
Google 직원이 공개 포럼에서 “무료 티어는 언제든 꺼질 수 있는 불안정한 환경”이라고 직접 밝혔습니다.
2025년 12월 삭제 이후 2026년 3월 현재까지 복구되지 않았습니다.
무료 복구 계획이나 일정은 Google이 공개한 바가 없습니다.
Q3. Thinking 토큰을 완전히 끄려면 어떤 모델을 써야 하나요?
단순한 태스크에 Thinking이 필요 없다면 Flash나 Flash-Lite를 쓰는 게 맞습니다.
Q4. 컨텍스트 캐싱은 어느 정도 되면 쓸 만한가요?
최소 1,024 토큰 이상의 고정 콘텐츠(시스템 프롬프트, 참고 문서 등)를 반복해서 보내는 구조라면 캐싱 효과가 납니다.
캐싱 입력 단가는 $0.125로 표준($1.25)의 10분의 1이지만,
시간당 $4.50/1M 토큰의 스토리지 비용이 추가로 붙습니다.
캐시를 1시간 유지하고 1M 토큰짜리 문서를 10번 이상 참조할 때부터 실제 이득이 납니다.
Q5. Gemini 2.5 Pro와 새로 나온 Gemini 3.1 Pro, 가격 차이가 큰가요?
2026년 3월 기준 Gemini 3.1 Pro(프리뷰)의 입력 단가는 $2.00(≤200K), 출력은 $12.00으로
2.5 Pro 대비 입력이 약 60%, 출력이 약 20% 더 비쌉니다.
다만 프리뷰 단계이고 가격은 정식 출시 시 바뀔 가능성이 있습니다.
현시점에서 프로덕션 비용 예측을 위해서는 2.5 Pro 기준이 더 안정적입니다.
마치며
$1.25 입력, $10 출력은 비슷한 성능대의 Claude 3.7이나 GPT-4o 계열과 크게 다르지 않습니다.
문제는 가격표 뒤에 숨어 있는 세 가지 — Thinking 기본 활성화, 무료 티어 삭제, 200K 초과 시 구간 점프 — 를 모르고 시작하면 청구서가 예상의 몇 배로 나온다는 점입니다.
솔직히 말하면, 무료 티어 삭제 방식이 좀 아쉬웠습니다. 사전 공지 없이 하루아침에 사라진 건 프로덕션에 연동해 둔 개발자 입장에선 꽤 당황스러운 경험입니다.
“무료 티어는 보장이 없는 서비스”라는 Google의 입장은 이해하지만, 한 번의 이메일이 그렇게 어려운 일은 아니었을 것 같습니다.
Thinking을 끄고 싶다면 Flash를, 비용 걱정 없이 테스트만 하고 싶다면 Google AI Studio에서 토큰 수부터 확인해보는 게 가장 빠른 방법입니다.
📚 본 포스팅 참고 자료
-
Google Gemini Developer API 공식 가격 페이지 —
https://ai.google.dev/gemini-api/docs/pricing -
Google AI Developers Forum — Gemini 2.5 Pro 무료 티어 비활성화 관련 공식 답변 —
discuss.ai.google.dev -
Google AI Developers Forum — Thinking 비활성화 오류(INVALID_ARGUMENT) 관련 —
discuss.ai.google.dev -
GitHub googleapis/python-genai issue #782 — max_output_tokens와 thinking 토큰 충돌 —
github.com/googleapis/python-genai -
Arsturn — “Why Is My Gemini 2.5 Flash API Billing Suddenly So High?” (2025.08) —
arsturn.com
본 포스팅은 2026년 3월 21일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
가격·한도·기능은 Google의 정책에 따라 언제든 달라질 수 있으니, 실제 적용 전 공식 문서를 반드시 재확인하세요.


댓글 남기기