gemini-2.5-pro 정식 버전 기준 (출시: 2025.06.17)
Gemini 2.5 Pro, 이 조건이면 비용이 두 배 납니다
코딩 벤치마크 1위, 100만 토큰 컨텍스트, 무료 티어 제공. 홍보 문구는 화려한데, 막상 API로 붙여보면 예상 못 했던 지점에서 청구서가 터집니다. 씽킹 토큰 과금 구조와 200k 초과 프라이싱 함정을 공식 문서 수치로 바로 확인했습니다.
Gemini 2.5 Pro가 진짜 강한 부분은 따로 있습니다
Gemini 2.5 Pro는 2025년 3월 구글 딥마인드가 공식 출시한 추론형(Thinking) 모델입니다. 당시 LMArena 리더보드 1위를 기록했고, 코딩 에이전트 평가 표준인 SWE-bench Verified에서 63.8%를 기록했습니다(출처: Google 공식 블로그, 2025.03.26). 이 수치는 당시 업계 최고치였습니다.
진짜 강점은 코딩 단독 성능보다 멀티모달 + 긴 컨텍스트 조합에 있습니다. 텍스트, 이미지, 오디오, 비디오, PDF를 하나의 100만 토큰 창 안에 넣고 동시에 처리할 수 있는 모델은 2025년 기준 사실상 이 모델뿐이었습니다. Box의 AI Extract 에이전트가 복잡한 비정형 문서에서 90% 이상의 정확도를 기록한 것도 이 구조 덕분입니다(출처: Google Cloud 블로그, 2025.05.21).
다만 2026년 3월 현재, 구글은 이미 Gemini 3 시리즈를 운영 중입니다. 2.5 Pro의 지원 종료일은 2026년 6월 17일로 공식 문서에 명시되어 있습니다. 지금 2.5 Pro를 선택하려면 이유가 뚜렷해야 합니다.
씽킹 토큰, 출력 비용에 포함된다는 의미가 이겁니다
Gemini 2.5 Pro의 핵심 기능은 ‘추론(Thinking)’ 과정입니다. 모델이 답을 내놓기 전에 내부에서 가설을 세우고 검증하는 단계를 거칩니다. 문제는 이 내부 추론 과정에서 소비되는 씽킹 토큰도 출력 비용에 합산된다는 점입니다. Google AI Dev 공식 가격 페이지에 “Output price (including thinking tokens)”라고 명시되어 있습니다(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.24 기준).
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
단순히 “출력 토큰당 $10″이라고 생각하면 틀립니다. 복잡한 추론 문제를 던지면 모델이 내부에서 수천~수만 토큰의 씽킹 과정을 소화하고, 그 전부가 출력 비용으로 청구됩니다. 실제로 개발자들이 비용 폭탄을 맞은 케이스가 이 구조 때문이었습니다.
씽킹 예산(thinking budget)으로 조절할 수 있습니다
구글은 이 문제를 알고 있어서 thinkingBudget 파라미터를 제공합니다. 최대 32,000 토큰까지 씽킹 예산을 고정할 수 있습니다(출처: Google Cloud Blog, Google I/O 2025). 복잡도가 낮은 작업에는 씽킹 예산을 낮게 잡으면 비용을 대폭 줄일 수 있습니다.
씽킹 예산을 0으로 설정하면 추론 과정 없이 동작하지만, 그 경우엔 2.5 Pro를 쓰는 이유 자체가 희박해집니다. 추론이 필요 없는 작업이라면 Gemini 2.5 Flash($0.30/1M 입력)나 2.5 Flash-Lite($0.10/1M 입력)가 훨씬 저렴합니다.
200k 토큰 넘으면 가격이 정확히 두 배로 뜁니다
Gemini 2.5 Pro의 가격 구조에는 200k 토큰 기준으로 단가가 2배 전환되는 구간이 있습니다. 공식 가격 문서에 정확하게 나와 있는 수치입니다(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.24 기준).
| 항목 | 프롬프트 ≤ 200k 토큰 | 프롬프트 > 200k 토큰 |
|---|---|---|
| 입력 단가 (1M 토큰) | $1.25 | $2.50 |
| 출력 단가 (씽킹 포함, 1M 토큰) | $10.00 | $15.00 |
| 컨텍스트 캐싱 단가 (1M 토큰) | $0.125 | $0.25 |
| 배치 입력 단가 (1M 토큰) | $0.625 | $1.25 |
출처: Google Gemini API 공식 가격 문서 (ai.google.dev/gemini-api/docs/pricing, 2026.03.24 기준)
직접 계산해보면 이렇습니다. 300k 토큰짜리 법률 계약서를 입력하고 2,000 토큰짜리 요약을 받는다고 가정합니다.
📊 비용 계산 예시 (200k 초과 구간 적용)
· 입력: 300,000 토큰 × $2.50 / 1,000,000 = $0.75
· 출력+씽킹: 2,000 토큰 × $15.00 / 1,000,000 = $0.03
→ 합계: 약 $0.78 / 1회 요청
같은 조건에서 200k 이하로 줄이면 입력 비용만 $0.375로 반토막 납니다.
200k 토큰은 약 15만~20만 단어 분량입니다. 긴 계약서 여러 개를 한 번에 처리하거나 대형 코드베이스 전체를 컨텍스트에 넣는 순간 이 구간에 진입합니다. 컨텍스트 캐싱을 활용하면 반복 호출 비용을 줄일 수 있지만, 캐싱 단가도 200k 초과 시 동일하게 2배 전환됩니다.
공식 발표와 실제 벤치마크를 같이 보니 달랐습니다
2025년 3월 출시 당시 Gemini 2.5 Pro는 SWE-bench Verified에서 63.8%로 업계 1위를 기록했습니다. 그런데 같은 해 5~6월에 Claude Sonnet 4(당시 SWE-bench 72.5% 이상)가 출시되면서 코딩 영역에서 순위가 역전됐습니다(출처: Composio.dev 비교 분석, 2025.05.26).
💡 두 모델의 출시 시점과 벤치마크 변화를 함께 놓고 보니 이 패턴이 보였습니다
“코딩 최강”이라는 포지셔닝은 특정 시점의 스냅샷입니다. 2.5 Pro의 벤치마크 수치 자체가 낮아진 게 아니라, 경쟁 모델들이 빠르게 따라잡은 것입니다. 2026년 3월 현재도 LiveCodeBench(알고리즘 코딩) 영역에서는 2.5 Pro가 Claude 4 대비 우위를 유지하는 구간이 있습니다.
멀티모달 처리에서는 여전히 독보적입니다
코딩 단독 비교에서는 Claude 4 시리즈에 밀리지만, 비디오·오디오·이미지를 텍스트와 함께 처리하는 조합에서는 Gemini 2.5 Pro가 실질적으로 앞섭니다. 이는 구조적인 차이에서 비롯됩니다. GPT-5, Claude 4 계열은 멀티모달 지원이 있지만 100만 토큰 컨텍스트 창과 조합하는 방식은 2.5 Pro가 더 성숙한 편입니다.
Humanity’s Last Exam 벤치마크에서 도구 사용 없이 18.8%를 기록한 수치도 주목할 만합니다. 이 테스트는 수백 명의 전문가들이 만든 최고 난도 문제들을 담고 있는데, 단순 추론이 아닌 심층 전문 지식이 필요한 영역에서의 성능을 측정합니다(출처: Google 공식 블로그, 2025.03.26).
무료 티어로 쓸 수 있는 조건이 생각보다 좁습니다
Google AI Studio의 Gemini 2.5 Pro 무료 티어는 공식 가격 문서에서 “Not available”로 표시됩니다. 즉, API 무료 티어에서는 2.5 Pro가 제공되지 않습니다. 무료로 2.5 Pro API를 쓸 수 있는 경로는 별도로 존재하지 않고, 유료 전환 후 Tier 1부터 접근 가능합니다(출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.24 기준).
⚠️ 무료 티어에서 2.5 Pro에 접근할 수 있는 방법
Gemini 앱(gemini.google.com)에서 Gemini Advanced 구독($19.99/월)을 이용하면 UI 상에서 2.5 Pro를 사용할 수 있습니다. 하지만 이건 채팅 인터페이스 기준이고, API 호출에는 별도 유료 청구가 발생합니다. 두 개념이 다릅니다.
Tier 구조가 비용에 직접 영향을 줍니다
API 유료 전환 후 누적 결제액에 따라 Tier 1 → Tier 2 → Tier 3으로 자동 업그레이드됩니다. Tier 2는 $100 이상 결제 + 최초 결제 후 3일, Tier 3은 $1,000 이상 결제 + 30일 이상 경과 조건입니다. Tier가 높을수록 분당 요청 수(RPM)와 배치 토큰 한도가 늘어납니다. Tier 1 기준 Gemini 2.5 Pro의 배치 처리 한도는 500만 토큰이고, Tier 3에서는 10억 토큰까지 확장됩니다(출처: ai.google.dev/gemini-api/docs/rate-limits, 2026.03.23 기준).
프로덕션 환경에서 대량 호출이 필요하다면 배치 API를 적극 활용하는 게 낫습니다. 배치 모드 입력 단가는 표준 대비 50% 저렴합니다($0.625 vs $1.25, 200k 이하 기준).
2026년 지금, 2.5 Pro를 써야 하는 상황이 있습니다
Gemini 3 시리즈가 이미 운영 중인 2026년에도 2.5 Pro가 유효한 상황은 분명히 있습니다. 세 가지로 정리하면 이렇습니다.
Vertex AI 기반 엔터프라이즈 파이프라인
이미 2.5 Pro로 구축된 프로덕션 시스템은 마이그레이션 비용을 감안하면 당장 바꿀 이유가 없습니다. 공식 지원이 2026년 6월 17일까지 보장됩니다.
대용량 문서 멀티모달 분석
PDF, 이미지, 영상이 혼합된 대용량 문서를 100만 토큰 창 안에 넣고 추론까지 필요할 때. 이 조합을 가장 안정적으로 지원하는 현용 모델입니다.
알고리즘 최적화 코딩 작업
LiveCodeBench 기준 알고리즘 문제 풀이에서 2.5 Pro는 GPT-5 대비 앞서는 구간이 있습니다. 경쟁 코딩, 수학 최적화 쪽이라면 여전히 선택지가 됩니다.
💡 2.5 Pro의 지원 종료일과 3 시리즈 정식화 일정을 같이 보면 이렇게 읽힙니다
2026년 6월 17일 이후엔 gemini-2.5-pro 모델 ID가 만료됩니다. 새 프로젝트를 지금 시작한다면 Gemini 3 계열로 진입하는 게 장기적으로 낫습니다. 반면 단기 프로젝트나 기존 파이프라인 유지 목적이라면 2.5 Pro는 충분히 안정적인 선택입니다.
Q&A — 많이 묻는 5가지
Q1. Gemini 2.5 Pro API 무료로 쓸 수 있나요?
Q2. 씽킹 토큰을 끌 수 있나요?
Genspark Claw
50% 할인











댓글 남기기