Gemini 2.5 Pro, 싸다고 쓰면 이 상황에서 막힙니다

Published on

in

Gemini 2.5 Pro, 싸다고 쓰면 이 상황에서 막힙니다

2026.03.25 기준 / Gemini 2.5 Pro (GA) 기준

Gemini 2.5 Pro, 싸다고 쓰면
이 상황에서 막힙니다

Gemini 2.5 Pro API 가격은 입력 기준 $1.25/100만 토큰 — 3.1 Pro($2.00)보다 37% 저렴합니다. 그런데 특정 조건에서는 이 계산이 완전히 뒤집힙니다. 공식 가격 페이지와 실사용 포럼 데이터를 직접 교차했습니다.

GA 안정 모델
은퇴일 2026.06.17
Vertex AI 공식 가격 검증

3 Pro Preview가 내일(3월 26일) 종료되는 이유

오늘 날짜는 2026년 3월 25일입니다. Vertex AI 공식 마이그레이션 문서에 따르면 gemini-3-pro-preview의 은퇴일은 2026년 3월 26일 — 내일입니다. (출처: Vertex AI Migrate 공식 문서)

반면 Gemini 2.5 Pro(GA)의 공식 은퇴일은 2026년 6월 17일입니다. 3 Pro Preview보다 83일 더 안정적으로 쓸 수 있습니다. 숫자만 보면 “최신 모델”이 오히려 더 빨리 끝납니다.

💡 공식 마이그레이션 문서와 가격 페이지를 같이 놓고 보니 이런 차이가 보였습니다 — Preview 딱지가 붙은 최신 모델이 GA 이전 세대보다 먼저 종료될 수 있다는 점, 의외로 알려지지 않았습니다.

Google은 Preview → GA 승격 전에 Preview를 정리하는 구조를 쓰고 있습니다. 3 Pro Preview는 3.1 Pro Preview(2026.03.09 출시)가 그 자리를 이어받으면서 내일 종료됩니다. 프로덕션에 3 Pro Preview 엔드포인트를 하드코딩해둔 팀이라면 오늘 밤 교체해야 합니다.

Vertex AI 공식 문서: “gemini-3-pro-preview will be deprecated and removed on March 26, 2026” — Retirement date 컬럼에 명시

▲ 목차로 돌아가기

2.5 Pro의 실제 가격 — 숫자 하나가 바뀌는 지점

Gemini 2.5 Pro API 가격은 입력 토큰 기준 200K 이하에서 $1.25/100만 토큰, 출력은 $10.00/100만 토큰입니다. 3.1 Pro Preview의 $2.00/$12.00에 비하면 입력 기준 37%, 출력 기준 16% 저렴합니다. (출처: Vertex AI 공식 가격 페이지, 2026.03.25 기준)

모델 입력 ≤200K 입력 >200K 출력 ≤200K 출력 >200K 은퇴일
Gemini 2.5 Pro (GA) $1.25 $2.50 $10.00 $15.00 2026.06.17
Gemini 3 Pro Preview $2.00 $4.00 $12.00 $18.00 2026.03.26 ❌
Gemini 3.1 Pro Preview $2.00 $4.00 $12.00 $18.00 미정
Gemini 2.5 Flash $0.30 $0.30 $2.50 $2.50 2026.06.17

출처: Vertex AI 공식 가격 페이지 (2026.03.25 기준) / 단위: USD/1M tokens

표를 보면 2.5 Pro가 확실히 저렴합니다. 그런데 입력 토큰이 200K를 넘는 순간 가격이 두 배로 뜁니다 — $1.25 → $2.50. 이 구간에서는 2.5 Pro와 3.1 Pro의 입력 단가가 $2.50 대 $4.00으로 좁혀지고, 출력은 $15.00 대 $12.00이 됩니다. 즉, 200K 이상 롱컨텍스트 작업에서는 출력 단가 기준으로 3.1 Pro가 오히려 $3.00 더 쌉니다.

200K 토큰은 약 15만 단어 분량입니다. A4 기준 약 600페이지짜리 문서를 통으로 넘기는 수준 — 생각보다 자주 발생하는 구간입니다.

▲ 목차로 돌아가기

배치 API로 50% 내리는 방법, 단 이 조건이라야 합니다

Vertex AI 공식 가격표에는 Standard·Priority·Flex/Batch 세 가지 요금 티어가 있습니다. Flex/Batch 티어를 쓰면 Gemini 2.5 Pro의 입력 단가가 $1.25 → $0.625로 정확히 반값이 됩니다. (출처: Vertex AI 공식 가격 페이지, Gemini 2.5 — Flex/Batch 컬럼)

💡 배치 API 요금 계산 — 직접 따라해 볼 수 있는 수식

시나리오: 문서 요약 파이프라인, 월간 입력 1,000만 토큰 / 출력 200만 토큰

Standard 티어: (10 × $1.25) + (2 × $10.00) = $12.50 + $20.00 = 월 $32.50

Batch 티어: (10 × $0.625) + (2 × $5.00) = $6.25 + $10.00 = 월 $16.25

절반 가격으로 월 $16.25 절감 — 연간 환산하면 약 $195.

단, Batch API는 즉시 응답이 필요 없는 비동기 작업에서만 유효합니다. 요청을 제출하면 Google이 유휴 자원에서 처리하는 구조이기 때문에, 응답 시간이 수분~수시간까지 달라집니다. 실시간 챗봇이나 유저가 기다리는 API 엔드포인트에는 적용 불가입니다.

반대로 야간 배치 처리, 데이터 라벨링, 대량 문서 요약, 코드 리뷰 파이프라인 같은 워크로드라면 이 조합이 비용 구조를 바꿉니다. 한국어 블로그에서 이 Batch 티어를 2.5 Pro에 직접 적용해 수식으로 보여준 글은 아직 없습니다.

▲ 목차로 돌아가기

롱컨텍스트 구간에서 실제로 무슨 일이 생깁니다

가격 얘기만 하면 “그래도 2.5 Pro가 나은 거 아닌가”가 나옵니다. 근데 성능 측면에서 30K 토큰을 넘기는 순간 실제로 다른 일이 벌어집니다.

💡 공식 포럼과 가격 문서를 같이 놓고 보니, 비용이 오르는 구간과 품질 저하가 시작되는 구간이 겹친다는 점이 보였습니다.

Google AI Developer 공식 포럼(discuss.ai.google.dev)에 2025년 8월부터 올라온 실사용 리포트들을 보면, Gemini 2.5 Pro에서 공통적으로 지적하는 문제가 있습니다. 30K 문자 이상의 컨텍스트에서 앞 내용을 망각하거나, 여러 지시사항 중 첫 번째만 수행하고 나머지를 건너뛰는 현상입니다. (출처: Google AI Developer Forum, discuss.ai.google.dev, 2025.08~10)

한 사용자는 코딩 PHP/JS/SQL 작업에서 “새 채팅에서는 잘 되는데, 대화가 쌓이면 10번 중 8번은 이전 코드를 잊어버린다”고 직접 기록했습니다. 또 다른 사용자는 3,000자 이상 출력을 요청했더니 1,000~2,000자에서 잘려 나왔다고 보고했습니다. 이 문제들은 구글이 2025년 8월 쿼터를 절반으로 줄인 시점과 겹칩니다.

비용 계산만 하고 실제 토큰 구간별 품질을 검증하지 않은 채 2.5 Pro를 롱컨텍스트 파이프라인에 투입하면, 비용 절감보다 재처리 비용이 더 커질 수 있습니다. 짧은 요청을 자주 보내는 구조 vs. 긴 컨텍스트를 한 번에 보내는 구조 — 어느 쪽이 유리한지는 실제 쿼리 길이 분포를 먼저 재야 합니다.

▲ 목차로 돌아가기

3.1 Pro와 비교할 때 2.5 Pro가 여전히 유리한 조건

3.1 Pro Preview가 더 뛰어나다면 무조건 교체하면 되는 걸까요? 공식 마이그레이션 문서와 가격 페이지를 같이 보면 그렇지 않은 경우가 있습니다.

01

GA 안정성이 필요할 때

3.1 Pro는 여전히 Preview 단계입니다. GA 승격 전까지 응답 형식이나 동작이 달라질 수 있습니다. 규제 산업(금융·의료)에서 GA 모델 고수 정책을 운용 중이라면 2.5 Pro가 유일한 선택입니다.

02

컨텍스트 캐싱 효율

2.5 Pro의 캐싱 단가는 $0.13/100만 토큰(≤200K 구간)입니다. 동일 시스템 프롬프트를 반복 사용하는 구조에서는 캐시 히트율이 높을수록 3.1 Pro 대비 비용 차이가 더 벌어집니다.

03

Computer Use 기능

Gemini 2.5 Pro Computer Use-Preview는 2.5 Pro와 동일한 $1.25/$10 가격 구조를 씁니다. 화면 자동화 워크플로우를 구현 중이라면 3.1 Pro로 교체하기 전 이 기능 유무를 확인해야 합니다.

2026년 상반기 내에 3.1 Pro GA 전환이 이뤄지고 나면 이 유리함은 사라집니다. 단, 그 시점까지는 Batch + 캐싱을 조합한 2.5 Pro가 비용 대비 가장 유연한 선택지로 남습니다.

▲ 목차로 돌아가기

2.5 Pro를 쓰면 안 되는 타이밍이 따로 있습니다

공식 마이그레이션 문서에 Gemini 3 Pro 및 이후 모델부터 적용되는 Breaking Changes가 명시돼 있습니다. 아래 중 하나라도 해당된다면 2.5 Pro에 묶여 있을 이유가 없습니다.

변경 사항 2.5 Pro 3.x Pro 실무 영향
thinking_budget 파라미터 ✅ 지원 ❌ 미지원 3.x에서는 thinking_level로 교체 필요
이미지 세그멘테이션 ✅ 지원 ❌ 미지원 3 Pro 이상에서 제거됨
Top-K 파라미터 ❌ 미지원 ❌ 미지원 gemini-1.0-pro-vision 이후 전체 미지원
PDF OCR 기본 동작 ✅ 기본 ON ❌ 기본 OFF 스캔 PDF 처리 파이프라인에 주의
온도(temperature) 기본값 유연 1.0 고정 권장 3.x에서 0.7 이하 설정 시 루핑 발생 가능

출처: Vertex AI 공식 마이그레이션 문서 — “Breaking changes” 섹션 (2026.03.25 기준)

특히 온도 파라미터 제약은 생각보다 중요합니다. 3 Pro 및 이후 모델에서 Google은 공식적으로 temperature=1.0을 기본값으로 유지하도록 강권하고 있습니다. 이 값을 낮추면 수학·추론 작업에서 루핑 또는 성능 저하가 발생할 수 있다고 문서에 직접 나옵니다. 2.5 Pro에서 온도를 세밀하게 조정해온 팀이라면 3.x로 넘어갈 때 이 제약부터 검토해야 합니다.

반대로 이미지 세그멘테이션이 필요 없고, 단기 대화·짧은 컨텍스트 중심의 서비스라면 지금 당장 3.1 Pro Preview로 전환해서 추론 성능 향상을 먼저 테스트해보는 게 낫습니다. 은퇴일이 6월인 2.5 Pro에 머물다 급하게 마이그레이션하는 것보다, 3개월의 여유를 두고 테스트하는 게 훨씬 안전합니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini 2.5 Pro와 2.5 Flash 중 어느 걸 써야 하나요?

응답 품질보다 처리량이 중요한 작업(분류, 요약, 반복 생성)이라면 2.5 Flash($0.30/$2.50)가 훨씬 유리합니다. Pro는 복잡한 추론, 코드 생성, 롱컨텍스트 이해가 필요한 경우에 한정해 쓰는 게 비용 대비 효율적입니다. 같은 작업에 Pro를 쓰면 Flash 대비 입력 기준 4배 이상 비용이 올라갑니다.

Q2. 컨텍스트 캐싱은 어떻게 활성화하나요?

Vertex AI 기준으로 cachedContent 파라미터를 요청에 포함하면 됩니다. 동일 시스템 프롬프트나 RAG 컨텍스트를 여러 요청에서 반복 사용할 때 효과가 크며, 2.5 Pro 기준 캐시 히트 시 입력 단가가 $1.25 → $0.13으로 떨어집니다. 단, 캐시 저장 비용($4.50/100만 토큰/시간)이 별도로 발생합니다. 짧은 시간 안에 많은 요청이 집중되는 패턴에서 유리합니다.

Q3. Google AI Studio와 Vertex AI 가격이 다른가요?

주요 모델의 토큰 단가는 대체로 동일합니다. 차이는 부가 기능에 있습니다. Vertex AI는 CMEK(고객 관리 암호화 키), VPC 프라이빗 엔드포인트, SLA 보장 등 기업용 기능이 포함되며 Google Cloud 인프라 비용이 추가될 수 있습니다. AI Studio는 무료 티어가 있고 빠른 프로토타이핑에 최적화돼 있습니다. 규제 산업이나 데이터 국지화 요건이 있다면 Vertex AI가 사실상 필수입니다.

Q4. Gemini 2.0 Flash를 아직 쓰고 있다면 언제 바꿔야 하나요?

2026년 6월 1일이 Gemini 2.0 Flash의 Vertex AI 기준 은퇴일입니다. Google AI Studio 측은 이보다 이른 종료가 있을 수 있으니 공식 가격 페이지의 Deprecation Notice를 주기적으로 확인하는 게 좋습니다. 이전 대상으로는 Gemini 2.5 Flash($0.30/$2.50) 또는 2.5 Flash-Lite($0.10/$0.40)가 권장됩니다.

Q5. Grounding with Google Search 비용은 어떻게 계산하나요?

2.5 Pro 기준으로 하루 1만 건까지 무료이고, 초과 시 $35/1,000건이 붙습니다. 반면 Gemini 3.x 모델(Flash/Pro 통합)은 월 5,000건 무료 후 $14/1,000건으로 단가가 낮습니다. 검색 기반 RAG를 많이 쓰는 서비스라면 월간 쿼리 볼륨에 따라 Grounding 비용이 API 토큰 비용을 초과할 수 있습니다. 먼저 월간 grounded prompt 수를 측정하고 두 모델의 Grounding 요금을 비교해야 합니다.

▲ 목차로 돌아가기

마치며

솔직히 말하면, “2.5 Pro가 저렴하니까 일단 쓰자”는 판단이 특정 구간에서 역전된다는 걸 공식 문서를 직접 뒤지기 전까지 저도 몰랐습니다. 200K 토큰을 넘는 순간 출력 단가 기준으로 3.1 Pro가 더 싸지고, Batch를 안 쓰면 할인 혜택의 절반을 그냥 버리는 셈입니다.

Gemini 2.5 Pro는 2026년 6월 17일까지 GA 안정 모델로 운용됩니다. 지금 당장 3.x로 강제 전환할 이유는 없습니다. 단, 은퇴일이 오기 전에 쿼리 길이 분포, Batch 적용 가능 여부, Breaking Changes 대응 여부를 미리 점검하는 게 나중에 급하게 마이그레이션하는 것보다 훨씬 편합니다.

가격표 숫자 하나가 달라지는 정확한 지점을 알고 나서 쓰는 것과 그냥 쓰는 것 — 같은 API인데 나오는 비용이 달라집니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Vertex AI Generative AI 공식 가격 페이지 — Google Cloud
  2. Vertex AI 최신 Gemini 버전 마이그레이션 가이드 — Google Cloud
  3. Gemini 2.5 Pro 성능 저하 공식 포럼 스레드 — Google AI Developer

본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Vertex AI 공식 가격 페이지 및 마이그레이션 문서를 직접 확인해 최신 정보를 검증하시길 권장합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기