Gemini 3.1 Pro, 가격은 그대로인데
이 부분이 더 비쌉니다
API 가격표에 3.0 Pro와 똑같이 적혀 있어도, 실제 청구서는 달라집니다.
thinking token 구조를 모르면 예상 비용의 10배를 낼 수 있습니다.
입력 $2 / 출력 $12 (100만 토큰)
High 모드: 비용 최대 10배 폭증
3.0 Pro와 가격이 같다는 게 진짜일까요?
구글이 2026년 2월 19일 Gemini 3.1 Pro를 출시하면서 개발자들이 가장 먼저 확인한 건 가격표였습니다. 공식 Gemini API 요금 페이지를 열면 Gemini 3.1 Pro Preview와 Gemini 3 Pro의 입출력 단가가 나란히 같게 표기돼 있습니다. 컨텍스트 200K 토큰 이하 기준 입력 $2.00, 출력 $12.00(100만 토큰당) — 숫자 그대로입니다. (출처: Google AI Developer API 가격 페이지, 2026.02.19)
“성능이 두 배 올랐는데 가격은 그대로”라는 발표는 사실입니다. ARC-AGI-2 벤치마크에서 3.1 Pro는 77.1%를 기록했고, 직전 버전인 3 Pro는 31.1%였습니다. 불과 몇 개월 사이에 추론 성능이 2배 이상 뛰었는데 가격표 숫자는 안 바뀌었습니다. (출처: Google Blog, 2026.02.19) 성능 대비 단가는 실제로 절반 이하로 떨어진 셈입니다.
다만 여기서 놓치기 쉬운 부분이 있습니다. 가격표에 적힌 숫자가 같아도, 실제로 청구되는 구조가 달라졌습니다. 3.1 Pro에는 3.0 Pro에 없던 thinking_level 파라미터가 추가됐고, 이 설정이 비용에 직접 영향을 줍니다. 어떤 방식인지 다음 섹션에서 풀어봅니다.
사고 토큰(thinking token)이 별도 요금이 아닌 이유
Gemini 3.1 Pro는 답변을 출력하기 전에 내부적으로 추론 과정을 먼저 생성합니다. 이걸 thinking token이라고 부릅니다. 많은 개발자들이 “thinking 과정은 내부 처리니까 따로 과금되지 않겠지”라고 생각하는데, 공식 문서를 확인하면 다릅니다.
💡 공식 가격표 원문(Google AI Developer API Pricing, 2026.02.19)을 보면 출력 가격 항목이 “Output price (including thinking tokens)”로 표기됩니다. 사고 토큰은 별도 항목이 아니라 출력 토큰에 포함되어 $12.00/1M 동일 단가로 청구됩니다.
즉 구조를 풀면 이렇습니다. thinking_level=”high”로 복잡한 코딩 작업을 요청했을 때 모델이 내부적으로 4,000 토큰을 사용해 추론한 뒤 500 토큰짜리 최종 답변을 내놓는다면, 청구되는 출력 토큰은 500이 아니라 4,500입니다. 최종 답변만 받았는데 9배 분량의 토큰이 과금되는 겁니다.
thinking_level을 “low”로 내리면 이 추론 과정이 매우 짧아집니다. Vertex AI 공식 모델 문서(2026.04.01 기준)에는 “thinking_level” 파라미터로 LOW, MEDIUM, HIGH 세 가지를 지원한다고 명시돼 있습니다. 기본값이 HIGH로 설정된 구현 환경이 많아서, 아무 설정 없이 API를 호출하면 가장 비싼 모드로 돌아갑니다.
실제 프로덕션 환경에서 이 사실을 모르고 에이전틱 루프를 돌리다가 3일 만에 예상보다 훨씬 높은 청구서를 받은 사례가 보고됐습니다. (출처: Verdent AI 프로덕션 사용 보고서, 2026.02.22) 간단한 한 줄 코드 질문에도 HIGH 모드에서는 내부 사고 과정이 수천 토큰 생성됩니다.
200K 토큰 초과하면 전체 요청이 재계산됩니다
두 번째로 많이 놓치는 부분이 컨텍스트 분기 구조입니다. Gemini 3.1 Pro API는 입력 컨텍스트 길이에 따라 요금이 두 단계로 나뉩니다. 200K 토큰 이하일 때는 입력 $2.00, 출력 $12.00이고, 200K를 초과하면 입력 $4.00, 출력 $18.00으로 오릅니다. (출처: Google AI Developer API Pricing, 2026.02.19)
💡 공식 Vertex AI 가격 페이지에는 이 전환 방식이 “blended rate”가 아님을 분명히 합니다. 200K를 1토큰이라도 초과하는 순간, 그 요청 전체 — 처음 1토큰부터 마지막 토큰까지 — 가 장기 컨텍스트 단가로 재계산됩니다. 초과분만 올라가는 게 아닙니다.
이게 왜 함정이냐면, 에이전트 루프에서 멀티 턴 대화를 할 때 컨텍스트가 턴마다 누적됩니다. 처음 3~4턴은 200K 이하에서 $2.00 단가로 돌아가다가, 5턴째에 코드파일이 추가되면서 200K를 넘는 순간 해당 요청 전체가 $4.00으로 리프라이싱됩니다. 같은 작업인데 갑자기 그 턴만 입력 비용이 2배 됩니다.
Verdent AI의 실측 데이터에 따르면 이 단계 전환을 관리하지 않은 코드베이스 분석 에이전트는 세션당 비용이 최대 40% 더 나왔습니다. 컨텍스트 누적을 180K 이하로 관리하면서 이전 턴을 요약으로 압축하는 방식으로 이 비용을 줄일 수 있습니다. (출처: Verdent AI 프로덕션 사용 보고서, 2026.02.22)
실제 비용 계산: 시나리오 3가지로 직접 따져봤습니다
공식 수치를 기반으로 실제 사용 시나리오를 직접 계산해봤습니다. 모든 계산 근거는 Google AI Developer API Pricing(2026.02.19) 기준입니다.
📌 시나리오 A — 단순 API 통합 테스트 (thinking_level=LOW)
입력 5,000 토큰 + 출력 500 토큰 (thinking 거의 없음), 하루 100회 호출 가정
| 항목 | 일일 토큰 | 단가(1M당) | 일일 비용 |
|---|---|---|---|
| 입력 | 500,000 | $2.00 | $1.00 |
| 출력 (LOW) | 50,000 | $12.00 | $0.60 |
| 일일 합계 | $1.60 | ||
월 환산 약 $48. 단순 Q&A 봇 수준이라면 이 정도 비용으로 충분합니다.
📌 시나리오 B — 코딩 에이전트 (thinking_level=HIGH, 동일 100회)
입력 5,000 토큰 + 내부 thinking 4,000 토큰 + 실제 출력 500 토큰 = 출력 4,500 토큰으로 청구
| 항목 | 일일 토큰 | 단가(1M당) | 일일 비용 |
|---|---|---|---|
| 입력 | 500,000 | $2.00 | $1.00 |
| 출력 (HIGH, thinking 포함) | 450,000 | $12.00 | $5.40 |
| 일일 합계 | $6.40 | ||
월 환산 약 $192. 시나리오 A와 동일한 100회 호출인데 비용이 4배입니다. 이게 thinking 토큰 과금 구조의 실체입니다.
📌 시나리오 C — 컨텍스트 200K 초과 (멀티 턴 에이전트)
3턴까지는 200K 이하, 4턴부터 250K로 초과. 4번째 요청 계산:
• 200K 이하라면: 입력 250,000 × $2/1M = $0.50
• 200K 초과 전체 재계산: 입력 250,000 × $4/1M = $1.00
→ 컨텍스트가 1토큰 넘는 순간, 입력 비용만 2배
출력 $18/1M 단가도 함께 적용되므로 출력 비용도 동시에 50% 오릅니다. 에이전트 루프에서 이 구간을 무방비로 넘기면 예측 불가한 청구서가 옵니다.
성능은 얼마나 올랐나, 공식 수치로 확인했습니다
가격 함정을 알면서도 3.1 Pro를 쓸 이유는 분명합니다. 성능이 실제로 크게 올랐습니다. 구글이 공식 발표에서 제시한 벤치마크 수치입니다.
| 벤치마크 | 3 Pro | 3.1 Pro | 변화 |
|---|---|---|---|
| ARC-AGI-2 (새 논리 패턴 추론) | 31.1% | 77.1% | +2.5배 |
| SWE-Bench Verified (에이전트 코딩) | — | 80.6% | 신규 |
| GPQA Diamond (박사급 과학) | — | 94.3% | 신규 |
| 최대 출력 토큰 | 8,192 | 65,536 | 8배 |
(출처: Google Blog 공식 발표문 2026.02.19 / Vertex AI 공식 모델 문서 2026.04.01 기준)
ARC-AGI-2가 77.1%라는 게 어느 정도냐면, 이 테스트는 모델이 학습 데이터에서 본 적 없는 완전히 새로운 논리 패턴을 즉석에서 풀어내는 시험입니다. 이전에는 외운 걸 잘 꺼내는 수준이었다면, 이제는 처음 보는 문제도 논리로 풀어냅니다.
최대 출력 토큰이 8,192에서 65,536으로 8배 확장된 부분도 실무에서 체감이 큽니다. (출처: Vertex AI 공식 모델 문서) 방대한 코드 전체를 끊김 없이 한 번에 완성하거나, 긴 보고서를 중간에 잘리지 않고 완성하는 작업이 가능해졌습니다.
Claude Opus 4.6 대비 진짜 가성비 계산
💡 공식 Vertex AI 가격 페이지와 Verdent AI 비교 보고서(2026.02.22)를 나란히 놓고 보니 이런 숫자가 나왔습니다. SWE-Bench 점수는 거의 같은데 가격 차이는 7배 이상입니다.
| 항목 | Gemini 3.1 Pro | Claude Opus 4.6 |
|---|---|---|
| 입력 단가 (1M 토큰) | $2.00 | $15.00 |
| 출력 단가 (1M 토큰) | $12.00 | $75.00 |
| SWE-Bench Verified | 80.6% | 80.8% |
| 입력 가격 차이 | Gemini 3.1 Pro가 7.5배 저렴 | |
| 출력 가격 차이 | Gemini 3.1 Pro가 6.25배 저렴 | |
(출처: Google AI Developer API Pricing 2026.02.19 / Vertex AI Pricing / Verdent AI 보고서 2026.02.22)
코딩 에이전트 성능을 대표하는 SWE-Bench Verified 점수는 0.2% 차이입니다. 프로덕션에서 체감하기 어려운 수준의 차이인데 가격은 7.5배 납니다. 대용량 문서를 반복 처리하거나 긴 컨텍스트 작업이 많다면 Gemini 3.1 Pro의 비용 이점이 실질적입니다.
반대로 장기 프로젝트에서 수 일에 걸친 호라이즌 작업이나 복잡한 무한 루프 교착 상황을 풀어내는 신뢰성은 Claude 쪽이 여전히 높다는 평가가 있습니다. Verdent AI는 실제로 Gemini 3.1 Pro가 503 오류를 낼 때 Claude Opus 4.6으로 폴백하는 라우팅을 운용 중입니다. 가성비는 Gemini, 안정성 임무는 Claude — 이 구분이 현실적인 운용 방식입니다.
Q&A
마치며
Gemini 3.1 Pro의 가격표 숫자는 3.0 Pro와 똑같습니다. 그런데 실제 비용은 다를 수 있습니다. 핵심은 두 가지입니다. thinking_level 설정이 기본값 HIGH에서 돌아가고 있는지, 컨텍스트가 200K를 넘는 구간을 관리하고 있는지. 이 두 가지를 챙기면 “성능은 2배, 가격은 그대로”라는 구글의 발표가 실제로도 맞아 떨어집니다.
ARC-AGI-2 77.1%, SWE-Bench 80.6%, 출력 토큰 65,536까지 — 수치만 보면 Claude Opus 4.6과 사실상 동급의 성능을 7배 낮은 가격에 씁니다. 대용량 처리와 반복 쿼리가 많은 프로덕션 파이프라인이라면 비용 이점이 실질적으로 큽니다.
다만 장기 프로젝트 신뢰성이나 복잡한 교착 상태 해결은 여전히 Claude가 강한 구간이 있습니다. “가성비 작업은 Gemini, 정밀 임무는 Claude” — 지금 시점에서 가장 현실적인 운용 방식입니다. 프리뷰 상태인 만큼, 정식 출시 전후로 가격 조정이 있을 수 있으니 공식 문서를 주기적으로 확인하세요.
본 포스팅 참고 자료
- Google Blog 공식 발표: 제미나이 3.1 프로 출시 (blog.google — 2026.02.19)
- Google AI Developer API 가격 페이지 (ai.google.dev/gemini-api/docs/pricing)
- Vertex AI Generative AI 가격 공식 문서 (cloud.google.com — Vertex AI Pricing)
- Vertex AI 공식 모델 카드: Gemini 3.1 Pro (docs.cloud.google.com — 2026.04.01 기준)
- Verdent AI 프로덕션 비용 분석 보고서 (verdent.ai — 2026.02.22)
- Simon Willison 개발자 실측 리뷰 (simonwillison.net — 2026.02.19)
※ 본 포스팅은 2026년 4월 2일 기준 수집된 공식 자료를 바탕으로 작성됐습니다. Gemini 3.1 Pro는 현재 프리뷰 상태이며, 본 포스팅 작성 이후 서비스 정책·API 가격·기능이 변경될 수 있습니다. 최신 가격 및 스펙은 Google AI Developer API Pricing 공식 페이지에서 직접 확인하세요. (gemini-3.1-pro-preview 기준)











댓글 남기기