Gemini 2.5 Pro 요금, 써봤더니 이게 달랐습니다

Published on

in

Gemini 2.5 Pro 요금, 써봤더니 이게 달랐습니다

2026.03.18 기준
Gemini 2.5 Pro · API v2026-03
Google AI Developer API 기준

Gemini 2.5 Pro 요금, 써봤더니 이게 달랐습니다

“입력 $1.25/1M 토큰”이라는 숫자만 보고 계산하면 틀립니다. 생각 토큰이 출력 요금에 포함되는 구조, 200K 토큰 구간 요금 점프, 무료 티어 92% 삭감까지 — 공식 문서를 직접 뜯어보니 이런 게 보였습니다.

$1.25
입력 토큰 / 1M (≤200K)
$10~15
출력+생각 토큰 / 1M
-92%
무료 Flash RPD 삭감(2025.12)

Gemini 2.5 Pro 요금 구조, 실제로는 세 가지입니다

Gemini 2.5 Pro 요금을 검색하면 “$1.25/1M 토큰”이라는 숫자가 가장 먼저 뜹니다. 막상 청구서를 보면 이 숫자와 맞지 않는 경우가 많습니다. 이유는 Gemini 2.5 Pro에 접근하는 경로가 크게 세 가지이고, 각각의 과금 방식이 완전히 다르기 때문입니다.

첫 번째는 Google AI Developer API (Google AI Studio)를 통한 직접 API 호출입니다. 토큰 단위로 과금되며, 개발자·스타트업이 주로 사용합니다. 두 번째는 Vertex AI를 통한 기업용 엔터프라이즈 접근으로, 요금 체계는 유사하지만 Priority(우선 처리) 옵션이 추가됩니다. 세 번째는 Google AI Pro ($19.99/월) 구독처럼 앱 레벨에서 Gemini를 사용하는 방식인데, 이때는 토큰 단위 과금이 아닙니다.

개발자 API 기준 2026년 3월 현재 공식 요금표(출처: Google AI Developer API Pricing)는 아래와 같습니다.

항목 무료 티어 유료 티어 (≤200K) 유료 티어 (>200K)
입력 (텍스트/이미지/영상) 이용 불가 $1.25/1M $2.50/1M
출력 (생각 토큰 포함) 이용 불가 $10.00/1M $15.00/1M
컨텍스트 캐싱 이용 불가 $0.13/1M $0.25/1M
배치 API (50% 할인) 이용 불가 $0.625/1M 입력 $5.00/1M 출력

(출처: Google AI Developer API Pricing, 2026.03 기준)

표만 보면 입력은 저렴해 보입니다. 하지만 이 표에서 핵심은 “출력 (생각 토큰 포함)” 항목입니다. 이 부분에서 예상과 다른 청구가 발생합니다.

생각 토큰, 청구서에는 이미 포함돼 있습니다

Gemini 2.5 Pro는 Thinking 모델입니다. 응답을 생성하기 전 내부적으로 추론 과정을 거치는데, 이 과정에서 발생하는 토큰을 “생각 토큰(thinking tokens)”이라고 합니다. 중요한 것은 생각 토큰이 출력 결과에 보이지 않더라도 출력 토큰 요금에 그대로 포함돼 청구된다는 점입니다.

💡 공식 요금표의 “Output price (including thinking tokens)”라는 표현을 함께 놓고 보면, 이 비용이 어디서 오는지 바로 드러납니다. 생각 토큰은 내부 추론 과정의 산물이지만, 그 비용은 출력 요금 항목 안에서 정산됩니다.

실제 사례로 계산해보겠습니다. 100K 토큰 입력 프롬프트를 보내고 10K 토큰짜리 응답을 받았다고 가정할 때, 내부 추론 과정에서 생각 토큰이 추가로 20K 발생했다면 실제 출력 과금 대상은 30K 토큰(응답 10K + 생각 토큰 20K)이 됩니다.

계산 예시 (200K 이하 기준)

입력 100K × $1.25/1M = $0.125

출력 30K (응답+생각) × $10.00/1M = $0.30

총 $0.425 — 출력이 입력의 2.4배

즉, 입력 토큰이 저렴해 보여도 복잡한 질문일수록 추론 과정이 길어지고, 출력 청구액이 급격히 커집니다. Google Cloud의 Google Medium 블로그(출처: Optimizing Gemini 2.5 Pro with Thinking Budgets, 2025.07)에서도 “생각 토큰은 출력 결과에 보이지 않지만 100% 청구서에 반영된다”고 직접 명시하고 있습니다.

이를 줄이는 방법은 있습니다. Gemini 2.5 Pro에는 Thinking Budget 파라미터가 있어 내부 추론에 사용할 최대 토큰 수를 설정할 수 있습니다. 단순 요약, 번역처럼 굳이 깊은 추론이 필요 없는 작업에서는 thinking budget을 낮추면 출력 비용을 절감할 수 있습니다. 다만 thinking budget을 0으로 설정하면 추론 없이 응답하므로, 복잡한 문제에서 품질이 크게 떨어집니다. 이 트레이드오프는 작업 유형에 따라 직접 검증이 필요합니다.

200K 토큰 기준이 왜 중요한가

Gemini 2.5 Pro의 컨텍스트 창은 최대 1M(100만) 토큰입니다. 이건 분명 강점입니다. 하지만 200K 토큰을 넘는 순간 입력과 출력 요금이 모두 올라가는 구조라는 점은 잘 알려져 있지 않습니다.

200K 토큰 기준 요금 변화 (출처: Google AI Developer API Pricing)

입력: $1.25 → $2.50 (2배 상승)

출력: $10.00 → $15.00 (1.5배 상승)

300K 토큰짜리 긴 문서를 처리하는 시나리오로 직접 계산해보겠습니다. 300K 입력 + 20K 출력(생각 토큰 포함)이라면, 입력 전체가 200K 초과 구간에 해당하므로 $2.50/1M 요금이 적용됩니다.

계산 예시 — 장문서 처리 (300K 입력)

입력 300K × $2.50/1M = $0.75

출력 20K × $15.00/1M = $0.30

총 $1.05 / 건당

하루 100건 처리 시 약 $105 → 월 약 $3,150 (추정, 실제 생각 토큰 양에 따라 변동)

“1M 컨텍스트 창이니 긴 문서도 한 번에 처리할 수 있다”는 말은 사실이지만, 컨텍스트가 200K를 넘는 순간 요금도 같이 뛴다는 점을 고려해야 합니다. 긴 문서를 청크(chunk) 단위로 분할해 200K 이하로 나눠 처리하는 전략이 오히려 비용 절감에 유리할 수 있습니다. 단, 분할 처리는 문맥 연속성 손실이 발생할 수 있어 작업 특성에 맞는 선택이 필요합니다.

무료 티어, 갑자기 쓸 수 없게 됐습니다

Google AI Developer API의 무료 티어는 Gemini 2.5 Pro를 무료로 사용할 수 없습니다. 공식 요금표를 확인하면 Gemini 2.5 Pro의 무료 티어 항목이 “Not available(이용 불가)”로 표기돼 있습니다. (출처: Google AI Developer API Pricing)

무료 티어가 아예 없다는 것도 놀랍지만, 더 큰 이슈는 무료로 쓸 수 있었던 Gemini 2.5 Flash의 상황입니다. 2025년 12월 7일, 구글은 사전 공지 없이 무료 티어 API 한도를 대폭 축소했습니다.

모델 변경 전 RPD 변경 후 RPD 삭감률
Gemini Flash 250 20 -92%
Gemini Pro 100+ 50 -50%

(출처: Gemini API Rate Limits 2026 — blog.laozhang.ai, February 2026 기준)

이 변경은 공지 없이 이루어졌고, Google AI Developers Forum에는 “92% 삭감을 모를 것 같았냐”는 제목의 스레드가 수백 개의 반응을 받으며 올라왔습니다. 구글 측은 이후 “Gemini 3 수요 증가로 인한 컴퓨팅 자원 재배치”라고 설명했지만, 사전 통보 없이 진행된 점에서 무료 티어를 프로덕션 환경에서 신뢰하기 어렵다는 교훈을 남겼습니다. 이 삭감은 무료 티어가 언제든 정책 변경의 대상이 될 수 있음을 의미합니다.

구독 요금 $19.99와 API 요금은 완전히 다른 이야기입니다

구글은 현재 개인·기업 사용자를 위한 구독형 플랜(Google AI Plus/Pro/Ultra)과 개발자용 API 과금 체계를 분리해서 운영하고 있습니다. 이 두 가지를 혼동하면 계산이 완전히 틀려집니다.

💡 구독 페이지와 API 요금 페이지를 함께 열어두고 비교해보면, 사용자 유형에 따라 선택해야 할 요금 체계가 완전히 갈린다는 게 보입니다. 개발자가 구독 플랜 가격만 참고하거나, 반대로 일반 사용자가 API 토큰 요금을 기준으로 판단하는 경우 모두 잘못된 기대를 갖게 됩니다.

구독형 요금 현황(출처: gemini.google/subscriptions, 2026.03 기준)은 다음과 같습니다.

플랜 월 요금 Gemini 2.5 Pro 접근
Free $0 제한적 (Gemini 3 Flash 기본)
Google AI Plus $7.99 3.1 Pro 접근 (2.5 Pro 아님)
Google AI Pro $19.99 3.1 Pro 높은 접근 (2.5 Pro 아님)
Google AI Ultra $249.99 최고 수준 모델 접근

주목할 점은, 2026년 3월 기준 Google AI Pro($19.99)의 기본 모델이 Gemini 2.5 Pro가 아닌 Gemini 3.1 Pro라는 겁니다. 구독 플랜의 주력 모델은 이미 Gemini 3 계열로 넘어갔습니다. API를 통해 Gemini 2.5 Pro를 별도로 호출하는 것과, 구독 앱 내에서 사용하는 것은 접근 모델 자체가 다를 수 있습니다. 토큰 과금 API는 여전히 Gemini 2.5 Pro를 지원하지만, 구독 앱 UX에서는 구글이 안내하는 기본 모델로 자동 라우팅됩니다.

Gemini 2.5 Pro가 사실상 레거시가 되고 있습니다

2026년 3월 현재 구글은 공식 API 요금 페이지 최상단에 Gemini 3.1 Pro Preview를 배치하고 있습니다. Gemini 2.5 Pro는 하단 섹션으로 밀려났습니다. 이미 Gemini 3 계열이 구독 앱의 기본 모델로 자리 잡았고, 구글 공식 포럼에는 “Gemini 2.5 Pro/Flash의 안정 대체 모델 확인 요청”이라는 스레드가 2026년 3월 9일자로 올라와 있습니다(출처: Google AI Developer Forum, 2026.03.09).

이 스레드에서는 Gemini 2.5 Flash와 Gemini 2.5 Pro가 2026년 6월 17일 deprecated 예정임이 언급됩니다. deprecated 이후에도 즉시 호출이 막히는 건 아니지만, 공식 지원이 축소되고 서비스 중단 날짜가 설정됩니다.

💡 구독 앱의 기본 모델 흐름과 API 요금 페이지 구성을 동시에 보면, 구글이 2.5 Pro를 어느 방향으로 정리하려는지 방향이 읽힙니다. 지금 2.5 Pro를 프로덕션에 적용 중이라면, Gemini 3 계열로의 마이그레이션 일정을 미리 검토하는 게 실용적입니다.

참고로 Gemini 3 Pro Preview의 API 요금은 입력 $2.00/1M, 출력 $12.00/1M(≤200K 기준)으로 Gemini 2.5 Pro보다 입력 단가가 높습니다. 다만 Google Search 연동 비용($14/1,000 검색 쿼리 → 매월 5,000건 무료)과 성능 차이를 함께 고려해야 합니다.

기존 Gemini 2.5 Pro 기반 코드에서 모델명 문자열만 교체하면 되는 경우가 많지만, 컨텍스트 처리 방식이나 출력 형식이 세부적으로 달라질 수 있으므로 마이그레이션 전 출력 품질 비교 테스트를 권장합니다. 이 부분은 확인 필요합니다.

자주 묻는 것들

Gemini 2.5 Pro를 무료로 쓸 수 있나요?
Google AI Developer API 무료 티어에서는 Gemini 2.5 Pro를 사용할 수 없습니다. 공식 요금표에 “Not available”로 표기돼 있습니다. Google AI Studio에서 테스트 목적으로 제한적으로 사용하는 것과, API를 통해 실제 호출하는 것은 다릅니다. API 호출은 유료 티어(결제 수단 등록)가 필요합니다. (출처: Google AI Developer API Pricing, 2026.03)
생각 토큰(thinking tokens) 비용을 줄이는 방법이 있나요?
API 요청 시 thinkingConfigthinkingBudget 파라미터를 설정해 최대 추론 토큰 수를 제한할 수 있습니다. 단순 작업(번역, 요약, 분류)에서는 낮은 thinking budget이 효과적이지만, 수학 문제·코딩·복합 추론 작업에서는 품질 저하가 발생할 수 있습니다. thinking budget을 0으로 설정하면 추론 없이 응답하므로 비용은 줄지만 Thinking 모델로서의 장점이 사라집니다.
Google AI Pro($19.99)를 구독하면 API도 무료로 쓸 수 있나요?
아닙니다. Google AI Pro 구독은 Gemini 앱, NotebookLM, Google Workspace 내 Gemini 기능 등 소비자용 서비스 접근권을 제공합니다. Google AI Developer API는 별도의 과금 체계이며, 구독 요금과 무관하게 토큰 사용량에 따라 청구됩니다. 두 요금 체계는 완전히 분리돼 있습니다. (출처: gemini.google/subscriptions, 2026.03)
배치 API를 쓰면 얼마나 절약되나요?
배치 API(Batch API)는 표준 요금 대비 50% 할인이 적용됩니다. 입력 $1.25 → $0.625/1M, 출력 $10.00 → $5.00/1M(≤200K 기준)으로 절반 수준입니다. 단, 배치 처리는 비동기 방식으로 결과가 최대 24시간 후에 반환될 수 있습니다. 실시간 응답이 필요 없는 대량 처리 작업(데이터 라벨링, 대규모 번역, 보고서 생성 등)에 적합합니다. (출처: Google AI Developer API Pricing, 2026.03)
Gemini 2.5 Pro와 GPT-4o 요금, 어느 쪽이 유리한가요?
입력 단가는 Gemini 2.5 Pro($1.25/1M)가 GPT-4o($5.00/1M)보다 저렴합니다. 출력 단가도 Gemini 2.5 Pro($10/1M)가 GPT-4o($15/1M)보다 낮습니다. 다만 Gemini 2.5 Pro는 생각 토큰이 출력 요금에 포함되므로, 복잡한 추론 작업에서는 실제 출력 토큰 수가 예상보다 많아져 비용 차이가 줄어들 수 있습니다. 작업 유형별 실측 테스트가 필요합니다. (출처: 비교 수치는 각 공식 요금 페이지 기준, 2026.03)

마치며

Gemini 2.5 Pro 요금을 정리하면 이렇습니다. 입력 단가는 저렴하지만 생각 토큰이 출력 요금에 포함되는 구조이고, 200K 토큰 초과 시 요금이 2배로 뛰며, 무료 티어는 2.5 Pro 기준으로 아예 존재하지 않습니다. 게다가 2026년 6월 deprecated 일정까지 잡혀 있습니다.

솔직히 말하면, “$1.25라서 저렴하다”는 인식은 입력 토큰 단가만 보고 판단한 겁니다. 출력 토큰($10~15/1M)과 생각 토큰을 함께 계산하면 실제 비용 구조는 상당히 다릅니다. 특히 복잡한 추론 작업이 많은 환경에서는 예상 대비 청구액이 크게 나올 수 있습니다.

지금 Gemini 2.5 Pro를 처음 도입을 검토하고 있다면, deprecated 일정을 감안해 처음부터 Gemini 3 계열 기준으로 설계하는 게 장기적으로 더 안전한 선택일 수 있습니다. 이미 프로덕션에서 운영 중이라면 마이그레이션 시점을 미리 잡아두는 것을 권장합니다.

본 포스팅 참고 자료

  1. Google AI Developer API Pricing (ai.google.dev)
  2. Vertex AI Generative AI Pricing (cloud.google.com)
  3. Gemini 구독 플랜 (gemini.google)
  4. Gemini API Rate Limits 2026: Complete Developer Guide (blog.laozhang.ai, Feb 2026)
  5. Google AI Developer Forum — Gemini 2.5 Pro Deprecation 논의 (2026.03.09)
  6. Optimizing Gemini 2.5 Pro with Thinking Budgets (Google Cloud Medium, 2025.07)

※ 본 포스팅은 2026년 3월 18일 기준으로 작성되었습니다. Google AI Developer API 및 Vertex AI의 요금 정책, 모델 라인업, 무료 티어 조건은 구글의 정책 변경에 따라 언제든 달라질 수 있습니다. 본 포스팅 작성 이후 서비스 정책·요금·UI·기능이 변경될 수 있으니, 최신 정보는 공식 요금 페이지에서 직접 확인하시기 바랍니다. 본 내용은 투자·구매 결정의 근거로 사용하기 전 반드시 공식 문서로 재확인이 필요합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기