Gemini 2.5 Pro API 비용, 싼 줄 알았는데 이게 빠졌습니다

Published on

2026년 3월 21일

2026.03.21 기준
Gemini 2.5 Pro (gemini-2.5-pro-preview)
Google AI Developer API 기준

Gemini 2.5 Pro API 비용,
싼 줄 알았는데 이게 빠졌습니다

입력 $1.25/1M 토큰이라는 숫자만 보고 저렴하다고 생각했습니다. 그런데 막상 청구서를 보니 예상보다 훨씬 많았습니다. 이유는 하나였습니다 — Thinking 토큰. 공식 문서에 있지만 대부분의 블로그에서 빠진 부분입니다.

“hi” 한 마디

사고 토큰 613개 발생

Thinking OFF

2.5 Pro에서 불가능

200k 초과 시

출력 요금 $10→$15로 점프

공식 가격표, 어디서 봐야 하나요?

Gemini 2.5 Pro API 비용의 공식 기준은 Google AI for Developers 가격 페이지입니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.21 기준)

항목	≤ 200,000 토큰	> 200,000 토큰
입력 (텍스트/이미지)	$1.25 / 1M 토큰	$2.50 / 1M 토큰
출력 (Thinking 포함)	$10.00 / 1M 토큰	$15.00 / 1M 토큰
컨텍스트 캐싱	$0.31 / 1M (≤200k)	$0.625 / 1M (>200k)
캐시 스토리지	$4.50 / 시간 (1M 토큰당)

표를 보면 입력 요금이 Claude Sonnet 4.6의 $3/1M보다 절반도 안 됩니다. GPT-4o($2.50/1M)보다도 저렴합니다. 그런데 문제는 출력 쪽, 특히 Thinking 토큰이 출력 요금으로 청구된다는 점입니다. 이 부분이 청구서를 예상 밖으로 만드는 핵심입니다.

▲ 목차로 돌아가기

“hi” 한 마디에 청구된 것들

개발자 Simon Willison이 Gemini 2.5 Pro Preview에 “hi”라고 입력했을 때 실제 청구 내역을 공개했습니다. (출처: simonwillison.net, 2025.04.04)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

입력 토큰

2개

“hi” 두 글자

출력 토큰 (전체)

623개

실제 답변 포함

그 중 Thinking 토큰

613개

출력의 98.4%

출력 토큰 623개 중 613개가 모델이 내부에서 ‘생각하는’ 토큰이었습니다. 실제 답변 토큰은 10개뿐입니다. 그런데 Thinking 토큰 613개 전부 출력 요금($10/1M) 기준으로 과금됩니다. “hi” 하나에 발생한 비용은 0.006232달러로 자체는 작지만, 이게 수백만 번의 요청이 되면 이야기가 달라집니다.

직접 계산해보기:
하루 1,000번 요청 × 평균 출력 600 Thinking 토큰 = 60만 토큰/일
60만 ÷ 100만 × $10.00 = 하루 $6.00 (약 8,700원) — Thinking 토큰만으로 발생
한 달이면 약 $180(약 26만 원)입니다.

▲ 목차로 돌아가기

Thinking 토큰을 끌 수 없는 이유

2.5 Flash는 thinkingBudget=0으로 Thinking을 완전히 끌 수 있습니다. 그런데 2.5 Pro는 이 옵션이 지원되지 않습니다. 공식 문서에 명확히 적혀 있습니다. (출처: ai.google.dev/gemini-api/docs/thinking, 2026.03 기준)

모델	Thinking OFF 가능?	제어 방식	기본 동작
2.5 Pro	❌ 불가능	`thinkingBudget` 128~32768	Dynamic (항상 켜짐)
2.5 Flash	✅ 가능	`thinkingBudget=0`	Dynamic (기본)
2.5 Flash-Lite	✅ 가능	`thinkingBudget=0`	Thinking 없음 (기본)

2.5 Pro에서 할 수 있는 건 예산 범위를 128~32,768 사이에서 지정하거나, 기본값인 Dynamic(-1)을 유지하는 것뿐입니다. 단순한 작업에도 모델이 자체 판단으로 수백~수천 개의 Thinking 토큰을 사용합니다. 비용 통제가 어렵다는 게 가장 큰 실사용 한계입니다.

▲ 목차로 돌아가기

200k 초과 순간, 비용이 달라집니다

Gemini 2.5 Pro의 컨텍스트 윈도우는 최대 100만 토큰입니다. 그런데 200,000 토큰을 넘는 순간 입력 요금이 두 배, 출력 요금은 1.5배로 뜁니다. (출처: ai.google.dev/gemini-api/docs/pricing)

💡 긴 문서를 처리할 때 실제 비용 비교

📄 190,000 토큰 입력

입력: 190,000 ÷ 1,000,000 × $1.25 = $0.2375

출력 5,000 토큰: 5,000 ÷ 1,000,000 × $10.00 = $0.05

합계: $0.2875

📄 210,000 토큰 입력 (초과)

입력: 210,000 ÷ 1,000,000 × $2.50 = $0.525

출력 5,000 토큰: 5,000 ÷ 1,000,000 × $15.00 = $0.075

합계: $0.60

고작 20,000 토큰 차이인데 비용은 두 배 이상 납니다.

이 구간을 넘어가는 상황은 생각보다 쉽게 발생합니다. 긴 코드베이스, PDF 전체 업로드, 채팅 히스토리 누적 등이 해당됩니다. 200k 근처에서 컨텍스트를 관리하거나 캐싱($0.31~$0.625/1M)을 적극 활용하는 게 핵심입니다.

▲ 목차로 돌아가기

Experimental과 Preview, 실제 차이

Gemini 2.5 Pro에는 모델 ID가 두 개 존재합니다. gemini-2.5-pro-exp-03-25와 gemini-2.5-pro-preview-03-25입니다. Google 공식 발표에 따르면 Experimental 버전은 무료이지만, 데이터가 Google 서비스 개선에 활용됩니다. Preview 버전은 유료이고 데이터 학습에 사용되지 않습니다. (출처: Google Official Blog, 2025.04.04)

구분	Experimental (무료)	Preview (유료)
모델 ID 예시	`gemini-2.5-pro-exp-03-25`	`gemini-2.5-pro-preview-03-25`
요금	무료	과금됨
RPM / 일 한도	5 RPM / 25 RPD	150 RPM / 1,000 RPD (Tier 1)
데이터 학습 활용	✅ 사용됨	❌ 사용 안 됨
속도 제한 해제 조건	해제 불가	누적 $250 사용 시 Tier 2로

프로토타입이나 개인 테스트 목적이라면 Experimental로 충분합니다. 그러나 하루 25회라는 한도는 프로덕션 환경에서 쓰기엔 너무 낮습니다. 기업·서비스 환경이라면 Preview 요금제를 써야 하고, 비용을 절감하려면 Tier 2 이상으로 올려 속도 제한을 푸는 게 오히려 더 효율적입니다.

▲ 목차로 돌아가기

실제 비용을 낮추는 세 가지 방법

공식 문서와 실제 사용 사례를 교차해서 보니, 비용을 줄이는 방법은 세 가지로 좁혀집니다.

① Thinking Budget을 최솟값(128)으로 고정하기

끌 수는 없어도 최소화는 됩니다. thinkingBudget=128으로 설정하면 모델이 최소한의 사고만 하도록 유도할 수 있습니다. 단순 분류·요약 작업에 이걸 적용하면 Thinking 토큰 사용량이 크게 줄어듭니다. 복잡한 추론이 필요한 작업엔 써선 안 됩니다.

② Batch 모드 — 50% 할인이 그냥 있습니다

실시간 응답이 필요 없는 작업(데이터 전처리, 대량 번역, 문서 분류 등)은 Batch 모드를 쓰면 됩니다. 입력·출력 모두 50% 할인이 적용됩니다. 최대 24시간 지연은 있지만 비용은 정확히 절반입니다. (출처: ai.google.dev/gemini-api/docs/pricing) 프로덕션에서 이걸 안 쓰는 건 손해입니다.

③ 200k 아래로 컨텍스트 유지 + 캐싱 활용

200k 기준을 넘으면 출력 요금이 $10→$15로 오릅니다. 반복적으로 넘어가는 경우라면, 공통 컨텍스트(시스템 프롬프트, 긴 문서)를 캐시로 등록하면 캐시된 토큰은 입력 요금의 약 25% 수준($0.31/1M)으로 줄어듭니다. 같은 문서를 반복 호출하는 구조라면 캐싱이 실질적인 절감 수단입니다.

▲ 목차로 돌아가기

자주 나오는 질문들

Q. Gemini 2.5 Pro API는 무료로 쓸 수 있나요?

Experimental 모델 ID(gemini-2.5-pro-exp-*)는 무료이지만 하루 25회 한도가 있습니다. 실제 서비스 개발에는 Preview 모델 ID(gemini-2.5-pro-preview-*)를 써야 하고 이건 유료입니다. AI Studio에서 키를 발급받아 테스트할 때 모델 ID를 잘못 지정하면 예기치 않게 요금이 청구될 수 있습니다.

Q. Thinking 토큰 사용량은 어떻게 확인하나요?

API 응답의 usage_metadata 필드에서 확인할 수 있습니다. Python SDK 기준으로 response.usage_metadata.thoughts_token_count가 Thinking 토큰 수이고, response.usage_metadata.candidates_token_count가 실제 출력 토큰 수입니다. 두 값을 합친 게 출력 요금 기준입니다. (출처: ai.google.dev/gemini-api/docs/thinking)

Q. 2.5 Flash vs 2.5 Pro, 비용 차이가 얼마나 되나요?

입력 기준으로 2.5 Flash는 $0.30/1M인데 2.5 Pro는 $1.25/1M입니다. 4배 이상 차이가 납니다. 출력은 Flash $2.50/1M, Pro $10.00/1M으로 4배 차이입니다. 단순 텍스트 처리나 분류처럼 추론이 깊게 필요하지 않은 작업은 Flash로 충분합니다. Pro는 복잡한 코딩, 다단계 추론이 실제로 필요한 경우에 쓸 때 가성비가 맞습니다.

Q. Google Search Grounding을 쓰면 비용이 얼마나 더 나오나요?

하루 1,500 RPD까지는 무료입니다. 그 이후부터는 프롬프트 1,000개당 $35가 추가됩니다. 모델 토큰 요금과 별도입니다. 요청 하나에 검색이 여러 번 이루어져도 프롬프트 1건으로 카운트됩니다. (출처: ai.google.dev/gemini-api/docs/pricing) 대량 트래픽 환경에서 Grounding을 켜놓으면 토큰 요금보다 Search 요금이 더 클 수 있습니다.

Q. Vertex AI와 Google AI Studio API, 어느 쪽이 저렴한가요?

▲ 목차로 돌아가기

마치며

Gemini 2.5 Pro의 입력 단가는 분명히 경쟁 모델 대비 낮습니다. 그러나 Thinking 토큰이 출력 요금으로 과금되고, 2.5 Pro에서는 끌 수조차 없다는 건 실제 청구서를 받기 전까지 체감하기 어렵습니다. Simon Willison의 실측처럼, 입력 2토큰에 출력 623토큰이 나오는 구조입니다.

쓸 일이 있다면 먼저 AI Studio에서 Thinking 토큰 사용량을 직접 확인해보고, 작업 유형에 맞게 2.5 Flash와 역할 분담을 설계하는 게 현실적입니다. 무조건 Pro를 쓰는 게 아니라, 정말 깊은 추론이 필요한 일에만 쓸 때 비용 대비 가치가 납니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Google Gemini API의 요금 및 기능은 Google의 정책에 따라 사전 고지 없이 변경될 수 있으므로, 최신 정보는 공식 가격 페이지에서 반드시 확인하시기 바랍니다. 본 내용은 정보 제공 목적으로 작성되었으며 투자·서비스 선택에 대한 책임은 본인에게 있습니다.

AI API 비용 비교, 구글 AI API, Gemini 2.5 Pro, LLM 요금, thinking 토큰

Gemini 2.5 Pro API 비용, 싼 줄 알았는데 이게 빠졌습니다

Gemini 2.5 Pro API 비용,
싼 줄 알았는데 이게 빠졌습니다

공식 가격표, 어디서 봐야 하나요?

“hi” 한 마디에 청구된 것들

Thinking 토큰을 끌 수 없는 이유

200k 초과 순간, 비용이 달라집니다

Experimental과 Preview, 실제 차이