gemini-3.1-pro-preview 기준
공개 프리뷰 출시일: 2026.02.19
Gemini 3.1 Pro 에이전트 루프,
직접 돌려봤습니다
출시 첫날 바로 에이전트 파이프라인에 연결했습니다. ARC-AGI-2 벤치마크 77.1%, 2M 토큰 컨텍스트, 그리고 Gemini 3 Pro 대비 추론 성능 2배. 숫자만 보면 압도적입니다. 그런데 3일 만에 예상 밖의 청구서를 받았습니다. 써보니까 벤치마크에는 없는 게 있더군요.
Gemini 3.1 Pro, 이게 왜 지금 화제인가요?
2026년 2월 19일, 구글 딥마인드가 제미나이 3.1 프로(gemini-3.1-pro-preview)를 공개했습니다. 기존 Gemini 3 Pro를 기반으로 핵심 추론 능력을 비약적으로 개선한 버전인데, 핵심 지표는 명확합니다. 완전히 새로운 논리 패턴 해결 능력을 테스트하는 ‘ARC-AGI-2’ 벤치마크에서 77.1%를 기록했고, 이건 이전 버전 대비 두 배 이상 향상된 수치입니다 (출처: 구글 공식 블로그, 2026.02.19).
스펙만 보면 더 압도적입니다. 입력 컨텍스트 최대 100만 토큰(Vertex AI 기준 1,048,576 토큰), 출력 최대 65,536 토큰, 텍스트·이미지·영상·오디오·PDF를 모두 한 세션에서 처리합니다 (출처: Vertex AI 공식 문서, 2026.03.15). 코드 실행, 함수 호출, 구글 검색 그라운딩, 컨텍스트 캐싱까지 한꺼번에 지원합니다.
그런데 여기에 중요한 단서가 하나 붙습니다. 구글 공식 발표문에도 이런 문장이 있습니다: “에이전트 워크플로우에서 3.1 프로의 성능을 지속적으로 향상시킬 것” — 즉, 지금 이 순간 에이전트 워크플로우는 아직 개선 중입니다. 이 문장을 그냥 지나치면 나중에 막히는 지점이 생깁니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 벤치마크는 단일 추론 과제 기준입니다. 에이전트 루프처럼 툴 호출이 연쇄되는 상황에서의 성능은 별개의 이야기입니다.
씽킹 토큰이 무료라고요? 이게 핵심입니다
Gemini 3.1 Pro를 쓸 때 많은 분들이 놓치는 게 바로 이 부분입니다. 씽킹 토큰(thinking tokens)은 무료가 아닙니다.
구글 AI 개발자 가격 페이지 공식 문서에는 이렇게 적혀 있습니다: “Output price (including thinking tokens)” — 즉, 사고 과정에서 생성되는 씽킹 토큰은 출력 토큰에 포함되어 과금됩니다 (출처: Google AI Developer API Pricing, 2026.02.19). 단가는 출력 토큰과 동일한 $12/1M 토큰(200K 이하 기준)입니다.
이게 실제로 어떤 의미인지 계산해보겠습니다. thinking_level="high"로 설정하고 복잡한 디버깅 요청을 보냈다고 가정하면:
📊 씽킹 토큰 비용 계산 예시
씽킹 토큰 소모: 4,000 토큰
실제 응답 출력: 500 토큰
과금되는 출력 토큰: 4,500 토큰 전체
→ 응답 길이만 보고 비용을 계산하면 9배 차이가 납니다
여기서 생각보다 중요한 인사이트가 하나 더 있습니다. Verdent AI의 실제 프로덕션 데이터에 따르면, Gemini 3.1 Pro를 Medium 씽킹 레벨로 사용했을 때 이전 모델인 Gemini 3 Pro의 High 씽킹과 추론 품질이 유사하면서도 토큰 소모가 적었습니다 (출처: Verdent AI 프라이싱 가이드, 2026.02.22). 즉, High를 기본값으로 쓰는 건 낭비일 수 있습니다.
💡 씽킹 레벨 3단계를 작업 유형에 따라 나눠 쓰는 것이 핵심입니다. Low: 단순 자동완성·짧은 답변 작업 / Medium(기본값 권장): 코드 리뷰·버그 수정·테스트 생성 / High: 다중 파일 복잡 디버깅·아키텍처 설계처럼 진짜 어려운 문제. 레벨 차이에 따른 토큰 소모는 같은 프롬프트에서 10배까지 벌어질 수 있습니다.
200K 넘는 순간 단가가 올라갑니다 — 계산해봤습니다
Gemini 3.1 Pro 가격 구조에는 200K 토큰 기준 티어 분리가 있습니다. 이 경계를 넘으면 단순히 초과분만 비싸지는 게 아니라, 해당 요청 전체가 상위 단가로 재산정됩니다 (출처: Google AI Developer API Pricing, 2026.02.19).
| 항목 | 200K 이하 | 200K 초과 | 차이 |
|---|---|---|---|
| 입력 토큰 | $2.00/1M | $4.00/1M | 2배 |
| 출력(+씽킹) 토큰 | $12.00/1M | $18.00/1M | 1.5배 |
| 컨텍스트 캐시 읽기 | $0.50/1M | $1.00/1M | 2배 |
출처: Google AI Developer API Pricing (ai.google.dev/gemini-api/docs/pricing), 2026.02.19
이게 에이전트 루프에서 어떻게 터지냐면 이렇습니다. 레포지토리 분석 에이전트를 만든다고 가정합니다. 1턴에서 코드베이스를 분석하고, 그 분석 결과를 2턴에 컨텍스트로 그대로 넘깁니다. 그 결과를 또 3턴에 넘깁니다. 4턴쯤 되면 누적 컨텍스트가 200K를 넘어 있고, 그 순간부터 모든 요청이 상위 단가로 처리됩니다.
Verdent AI의 실제 프로덕션 케이스에서는 컨텍스트 예산 관리로 이 문제를 해결했는데, 응답 객체의 usage_metadata.total_token_count를 매 턴 추적해서 180K 근방에서 과거 대화를 요약·압축하는 방식으로 비용을 약 40% 절감했습니다 (출처: Verdent AI 가이드, 2026.02.22). 이 수치는 200K 절벽을 밟지 않는 것만으로도 가능한 절감 폭입니다.
에이전트 루프에서 막히는 지점
구글 공식 발표문에는 “코딩 및 에이전트 워크플로우 성능을 지속 개선할 것”이라는 문구가 있습니다. 이 표현은 현재 시점에서 에이전트 워크플로우가 완성형이 아님을 인정하는 것입니다 (출처: 구글 공식 블로그, 2026.02.19).
재시도 폭풍이 생기는 이유
Gemini 3.1 Pro는 2026년 2월 현재 공개 프리뷰 단계입니다. 프리뷰 모델은 정식 버전에 비해 레이트 리밋이 더 엄격하고, 간헐적인 503 오류(서비스 사용 불가)가 발생할 수 있습니다. 문제는 단순 재시도 로직을 쓰면 씽킹 토큰이 포함된 요청 전체가 중복 실행됩니다. 5,000토큰짜리 요청이 3번 실패하고 4번째에 성공하면, 씽킹 오버헤드 비용만 4배가 됩니다.
실제로 구글 Antigravity 공개 포럼(discuss.ai.google.dev)에는 출시 직후인 2026년 2월 21일, 프로 구독자들이 할당량이 갑작스럽게 0%로 떨어지고 최대 167시간의 리셋 타이머가 걸리는 현상을 집단적으로 보고했습니다 (출처: Google Antigravity 개발자 포럼, 2026.02.21). 한 사용자는 “실질적으로 아무것도 사용하지 않았는데 쿼터가 비어있었다”고 보고했습니다. 이 불투명한 쿼터 시스템은 자동화 파이프라인에서 예상치 못한 중단을 만들 수 있습니다.
복잡한 멀티 툴 오케스트레이션의 비일관성
MindStudio의 2026년 3월 분석에 따르면 Gemini 3.1 Pro는 단순 툴 체인 처리에는 강하지만, 여러 툴이 상충하거나 부분적인 정보를 반환하는 상황에서 비일관성이 나타납니다 (출처: MindStudio, 2026.03.07). 반면 GPT-5.4는 병렬 함수 호출(parallel function calling)이 네이티브로 지원되어 여러 데이터 소스를 동시에 질의하고 결과를 합성하는 과정이 더 안정적입니다.
컴퓨터 사용(화면 기반 GUI 조작) 측면에서도 마찬가지입니다. 같은 분석에서 Gemini 3.1 Pro의 컴퓨터 사용 기능은 GPT-5.4, Claude Opus 4.6과 비교했을 때 가장 미성숙한 단계로 평가받았습니다. 특히 예상치 못한 화면 상태에서의 복구 능력이 부족하다는 점이 지적됩니다. 웹 자동화나 SaaS 도구를 AI로 조작하는 워크플로우를 구상하고 있다면, 지금 당장 Gemini 3.1 Pro를 주력으로 쓰기엔 이른 감이 있습니다.
💡 재시도 로직을 짤 때는 에러 유형을 먼저 분류하는 것이 전부입니다. 400 Bad Request는 재시도가 아니라 코드 수정이 필요한 에러입니다. 429(레이트 리밋)와 503(서비스 불가)만 지수 백오프로 재시도하고, 그 외는 즉시 예외로 올려야 씽킹 토큰 중복 과금을 막을 수 있습니다.
컨텍스트 캐싱, 쓰면 이렇게 달라집니다
Gemini 3.1 Pro는 두 가지 캐싱 방식을 지원합니다. 암묵적 캐싱(implicit)은 기본으로 활성화되어 있고, 별도 코드 변경 없이 동일한 컨텍스트를 재사용하면 자동으로 할인됩니다. 명시적 캐싱(explicit)은 직접 설정해야 하고 최소 32,768 토큰 이상이어야 하지만, 캐시 읽기 단가가 입력의 75%까지 줄어드는 보장된 할인입니다 (출처: Google AI Developer API Caching Docs, ai.google.dev/gemini-api/docs/caching).
실제 수치로 보겠습니다. 150K 토큰 크기의 코드베이스를 참조하는 에이전트가 하루 50번 질의한다고 가정합니다:
📊 명시적 캐싱 적용 전후 비교 (일 50회 질의, 150K 토큰 컨텍스트)
캐싱 없음:
→ 50회 × 150K × $2.00/1M = $15.00/일
명시적 캐싱 사용:
캐시 쓰기: 150K × $2.00/1M = $0.30 (1회)
캐시 저장: 150K × $4.50/1M × 24시간 = $0.016/일
50회 캐시 읽기: 50 × 150K × $0.50/1M = $3.75/일
→ 합계: 약 $4.07/일 → 캐싱 없을 때($15.00) 대비 73% 절감
출처: Verdent AI 프라이싱 가이드, 2026.02.22 / Google AI Developer API Pricing, 2026.02.19
이 계산이 말하는 건 단순합니다. 같은 대규모 컨텍스트를 60분 안에 3~4번 이상 재사용하는 파이프라인이라면 명시적 캐싱이 분명히 이득입니다. 그 미만이면 저장 비용($4.50/1M/시간)이 할인분을 잠식하므로 암묵적 캐싱에 맡기는 편이 낫습니다. 또한 코드 리뷰 에이전트에서 전체 파일 대신 git diff만 전달하는 방식으로 전환한 경우, 건당 비용이 $0.08에서 $0.006으로 약 13배 차이가 난 사례도 있습니다 (출처: Verdent AI, 2026.02.22).
GPT-5.4, Claude Opus 4.6과 비교하면
2026년 3월 현재 프로덕션 에이전트 시장에서 자주 비교되는 세 모델이 있습니다. GPT-5.4, Claude Opus 4.6, 그리고 Gemini 3.1 Pro. 이 셋은 각각 다른 설계 철학을 가지고 있고, 같은 작업에서 결과가 확연히 달라지는 지점이 있습니다 (출처: MindStudio 에이전트 AI 비교 분석, 2026.03.07).
| 기준 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| 컨텍스트 창 | 256K | 500K | 1M (API) 2M (앱) |
| 병렬 툴 호출 | ✅ 네이티브 | 순차적 | ✅ 네이티브 |
| 컴퓨터 사용 | 강 | 가장 강 | 가장 미성숙 |
| 실시간 검색 그라운딩 | 별도 툴 호출 | 별도 툴 호출 | 네이티브 |
| 입력 단가(1M) | 확인 필요 | $15 | $2 |
| SWE-Bench 추정 | 약 80%대 | 80.8% | 80.6% |
출처: MindStudio 에이전트 AI 비교 분석 (2026.03.07), Verdent AI 가이드 (2026.02.22) / Claude Opus 4.6 입력 단가 $15는 확인된 공개 수치
Gemini 3.1 Pro가 압도적으로 유리한 상황은 명확합니다. 대용량 문서 처리, 실시간 정보 검색이 필요한 리서치 에이전트, 텍스트·이미지·영상을 혼합 처리하는 멀티모달 파이프라인입니다. 반면 고위험 자동화(한 번의 실수가 치명적인 작업), 복잡한 GUI 조작, 장기 실행 태스크에서 지침 준수 정확도가 중요하다면 Claude Opus 4.6이 더 나은 선택입니다.
SWE-Bench 코딩 벤치마크 기준으로 Gemini 3.1 Pro(80.6%)와 Claude Opus 4.6(80.8%)의 차이는 0.2%포인트로 사실상 동일합니다. 그런데 입력 토큰 단가는 Claude Opus 4.6이 Gemini 3.1 Pro보다 7.5배 비쌉니다 (출처: Verdent AI, 2026.02.22). 즉, 대규모 코드베이스를 반복 참조하는 AI 코딩 에이전트라면 성능은 비슷하지만 비용은 완전히 다른 선택지가 됩니다.
Q&A 5가지
마치며
Gemini 3.1 Pro는 분명히 강력합니다. ARC-AGI-2 77.1%, Claude Opus 4.6 대비 7.5배 저렴한 입력 단가, 1M 이상의 컨텍스트 창. 대용량 문서 처리나 리서치 파이프라인에서는 경쟁 상대가 없는 수준입니다.
다만 이걸 에이전트 루프에 넣을 때는 세 가지 숫자를 항상 기억해야 합니다. 씽킹 토큰은 출력 토큰과 동일하게 $12/1M으로 과금되고, 200K 토큰을 넘는 순간 전체 요청 단가가 즉시 1.5~2배로 뛰고, 현재는 공개 프리뷰라서 쿼터 불투명성과 간헐적 503 오류를 감수해야 합니다.
벤치마크는 단일 추론 과제 기준이고, 에이전트 루프는 그것과 다른 게임입니다. 써보면서 막히는 지점이 있었고, 그걸 공식 수치와 함께 정리했습니다. 직접 파이프라인에 연결하기 전에 이 글이 조금이라도 도움이 됐으면 합니다.
📎 본 포스팅 참고 자료
- 구글 공식 블로그 — 제미나이 3.1 프로 출시 발표 (blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/)
- Google AI Developer API Pricing (공식 가격표) (ai.google.dev/gemini-api/docs/pricing)
- Vertex AI — Gemini 3.1 Pro 공식 모델 문서 (docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-pro)
- Verdent AI — Gemini 3.1 Pro Pricing Guide, 2026.02.22 (verdent.ai/guides/gemini-3-1-pro-pricing)
- MindStudio — Best AI Models for Agentic Workflows 2026, 2026.03.07 (mindstudio.ai/blog/best-ai-models-agentic-workflows-2026)
- Google Antigravity 개발자 포럼 — 쿼터 버그 보고 스레드, 2026.02.21 (discuss.ai.google.dev)
⚠️ 본 포스팅은 2026년 3월 20일 기준으로 작성되었습니다. Gemini 3.1 Pro는 현재 공개 프리뷰(preview) 단계이며, 정식 출시(GA) 이후 가격 정책·기능·UI·쿼터 구조가 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·기능·API 명세가 달라질 수 있으므로, 도입 전 반드시 공식 문서를 최신 버전으로 확인하시기 바랍니다.

댓글 남기기