gemini-3.1-pro-preview 기준
TECH
Gemini 3.1 Pro, 수치 3개로 직접 확인했습니다
추론 성능이 이전보다 2배 올랐다는 구글 공식 발표, 들어보셨죠? 그런데 막상 공식 문서를 뜯어보면 “이게 그냥 쓰기만 하면 되는 건지” 싶은 부분이 꽤 있습니다. 특히 Gemini 3 Pro 프리뷰가 3월 9일에 이미 종료됐다는 사실은 의외로 잘 알려지지 않았고요. 공식 수치 3개를 직접 들고 들어가 봤습니다.
3월 9일 이후, 지금 어떤 모델을 쓰고 있는 건가요
결론부터 말씀드리면, 지금 Google AI Studio나 API에서 gemini-pro-latest라고 호출하고 있다면 이미 Gemini 3.1 Pro 프리뷰를 쓰고 있는 겁니다. 2026년 1월 21일, 구글이 latest 태그를 조용히 교체했거든요.
그리고 한 발 더 나가서, gemini-3-pro-preview라는 모델 코드를 아직 코드에 하드코딩해서 쓰고 있다면 이건 좀 급합니다. 공식 문서에 이렇게 나옵니다.
“Gemini 3 Pro 프리뷰는 지원 중단되었으며 2026년 3월 9일에 종료됩니다. 서비스가 중단되지 않도록 Gemini 3.1 Pro 프리뷰로 마이그레이션하세요.”
(출처: ai.google.dev — Gemini 3 Pro 프리뷰 문서)
3월 9일은 이미 지났습니다. 지금 이 시점(2026.03.22)에 gemini-3-pro-preview를 호출하면 에러가 납니다. 바꿔야 할 모델 코드는 gemini-3.1-pro-preview입니다.
ARC-AGI-2 77.1%, 숫자가 뜻하는 진짜 의미
구글 공식 발표에서 Gemini 3.1 Pro가 ARC-AGI-2 벤치마크에서 77.1%를 기록했다고 밝혔습니다. 이전 모델인 Gemini 3 Pro는 약 31.1%였으니, 두 배 이상 오른 겁니다. (출처: Google 공식 블로그, 2026.02.19)
💡 공식 발표문과 실제 벤치마크 구조를 같이 놓고 보니 이런 차이가 보였습니다
ARC-AGI-2는 “완전히 새로운 유형의 문제”를 얼마나 잘 푸는지 보는 시험입니다. 패턴을 암기해서 푸는 게 아니라, 규칙을 스스로 추론해야 합니다. 31%에서 77%로 뛰었다는 건 단순히 “더 잘한다”가 아니라, 이전에는 못 풀던 문제를 이제 풀 수 있다는 뜻입니다.
다만 여기서 놓치기 쉬운 게 있습니다. 구글 딥마인드 공식 발표에서는 같은 날 Deep Think 모드 수치도 같이 공개됐는데, Deep Think는 ARC-AGI-2에서 45.1%(코드 실행 포함, ARC Prize 인증)를 기록했습니다. 잠깐, 3.1 Pro의 77.1%보다 낮잖아요?
📌 왜 Deep Think가 더 낮게 나왔는가
두 수치는 테스트 조건이 다릅니다. 3.1 Pro의 77.1%는 도구 없이(Tool-free) 공개 세트 기준이고, Deep Think의 45.1%는 코드 실행 포함 ARC Prize 공식 인증 기준입니다. 서로 다른 규칙으로 뛴 경기라 직접 비교가 안 됩니다. (출처: Google 딥마인드 공식 블로그, 2025.11.19)
수치가 높으면 무조건 낫다고 단순하게 보면 안 된다는 얘기입니다. 벤치마크는 항상 조건 세트와 같이 읽어야 합니다.
20만 토큰이 넘는 순간 API 비용이 달라집니다
Gemini 3.1 Pro 프리뷰의 API 가격은 컨텍스트 길이에 따라 두 구간으로 나뉩니다. 이 구조는 대부분의 리뷰 글에서 그냥 넘어가는 부분인데, 실제 업무에 쓸 때는 꽤 중요합니다.
| 컨텍스트 길이 | 입력 (1M 토큰당) | 출력 (1M 토큰당) |
|---|---|---|
| 200,000 토큰 이하 | $2.00 | $12.00 |
| 200,000 토큰 초과 | $4.00 | $18.00 |
출처: Apidog — Gemini 3 Pro API 가격 분석 / Google AI Studio 공식 가격 정책 기준
20만 토큰을 넘으면 입력 단가는 딱 2배, 출력 단가는 50% 인상입니다. 체감 계산으로 보면 이렇습니다.
Case A — 일반 문서 분석 (입력 15만 + 출력 8천, 20만 이하 구간)
입력: 150,000 × ($2.00 / 1,000,000) = $0.30
출력: 8,000 × ($12.00 / 1,000,000) = $0.096
→ 총합 약 $0.40 / 요청 1건
Case B — 대형 코드베이스 분석 (입력 35만 + 출력 1.5만, 20만 초과 구간)
입력: 350,000 × ($4.00 / 1,000,000) = $1.40
출력: 15,000 × ($18.00 / 1,000,000) = $0.27
→ 총합 약 $1.67 / 요청 1건
같은 일을 “길게” 하면 4배 넘는 차이가 납니다.
Gemini 3.1 Pro는 최대 100만 토큰(Vertex AI 기준)을 넣을 수 있다고 홍보합니다. 그런데 20만 토큰을 초과하면 단가가 바뀌는 구조라, 긴 컨텍스트 기능을 “무심코” 쓰면 청구서가 기대보다 훨씬 나올 수 있습니다. 100만 토큰 분량을 채워 넣으면 단순 계산으로도 한 요청에 수십 달러가 될 수 있습니다.
지식 단절 2025년 1월 — 이게 왜 문제가 되나요
Google AI for Developers 공식 문서에는 Gemini 3.1 Pro 프리뷰의 지식 단절(Knowledge Cutoff)이 2025년 1월이라고 명시돼 있습니다. (출처: ai.google.dev — gemini-3.1-pro-preview 모델 스펙, 2026.03.21 업데이트)
💡 추론 성능은 2배 올랐는데 알고 있는 세계는 1년 전에 멈춰있습니다
ARC-AGI-2에서 77.1%를 찍을 만큼 추론은 강해졌지만, 훈련 데이터 자체는 2025년 1월까지입니다. 지금 이 시점(2026.03)을 기준으로 1년 2개월 이상의 공백이 생깁니다. 검색 그라운딩(Search Grounding)을 켜면 보완이 되지만, 그라운딩 없이 “2025년 이후에 일어난 일”을 물으면 오래된 정보를 자신 있게 말할 수도 있습니다.
특히 2026년 3월 현재 기준으로 이런 상황이 생깁니다. Gemini 3.1 Pro 자신이 자신에 대해 모릅니다. “Gemini 3.1 Pro가 뭐야?”라고 물으면, 구글이 2026년 2월 19일에 공식 출시한 이 모델을 훈련 데이터에서 학습한 적이 없습니다. 검색 그라운딩이 없다면 모른다고 하거나 엉뚱한 얘기를 할 가능성이 높습니다.
Gemini 3 Pro(2025년 11월 출시)도 지식 단절이 동일하게 2025년 1월이었습니다. 구글이 Gemini 3.1 Pro를 내놓으면서도 훈련 데이터를 새로 갱신하지 않은 겁니다. 이유는 아직 공개되지 않았습니다.
customtools 엔드포인트, 일반 트랙과 다릅니다
공식 문서를 찬찬히 읽다 보면 Gemini 3.1 Pro 프리뷰에는 사실 두 가지 엔드포인트가 있다는 걸 알 수 있습니다. 대부분의 블로그나 리뷰는 이 부분을 그냥 지나칩니다.
| 모델 코드 | 최적화 대상 | 주의사항 |
|---|---|---|
| gemini-3.1-pro-preview | 범용 추론, 에이전트 워크플로 | 맞춤 도구와 bash 혼합 시 품질 변동 |
| gemini-3.1-pro-preview-customtools | 맞춤 도구 + bash 혼합 워크플로 | 맞춤 도구 없는 일부 케이스에서 품질 변동 |
출처: Google AI for Developers 공식 문서
에이전트를 만들 때 view_file이나 search_code 같은 맞춤 도구와 bash를 섞어 쓴다면, gemini-3.1-pro-preview-customtools를 써야 성능이 더 잘 나옵니다. 반대로 이 도구들을 전혀 안 쓰는 단순한 텍스트 작업에 customtools 엔드포인트를 쓰면 오히려 품질이 들쭉날쭉할 수 있습니다. 용도에 맞는 트랙을 고르는 게 먼저입니다.
이 두 트랙의 존재는 Gemini 3.1 Pro가 “하나의 모델”처럼 보이지만 실제 내부적으로 에이전트 시나리오와 일반 추론 시나리오를 다르게 다루고 있다는 신호입니다. Claude Code가 별도 시스템 프롬프트로 에이전트 최적화를 하는 것과 같은 맥락으로 볼 수 있습니다.
Gemini 3.1 Pro가 유리한 상황, 그렇지 않은 상황
솔직히 말하면, 어떤 AI 모델이든 “이게 최고야”라는 단정은 위험합니다. Gemini 3.1 Pro도 마찬가지입니다. 공식 자료와 실제 사용 패턴을 교차해서 보면 이렇게 나뉩니다.
- 단발성 고난도 추론 문제
- SVG 애니메이션, 3D 코드 생성
- 대형 코드베이스 전체 분석 (단, 비용 주의)
- Google Workspace 연동 에이전트
- 검색 그라운딩 켠 최신 정보 처리
- 2025년 2월 이후 최신 사건 관련 질문
- 맥락이 계속 쌓이는 장기 다중 턴 작업
- 20만 토큰 초과하는 대용량 프롬프트 (비용)
- 이미지·오디오 생성 (지원 안 됨)
- Live API 연동 (지원 안 됨)
특히 이미지 생성과 오디오 생성은 지원 안 됩니다. 공식 문서 스펙표에 “지원되지 않음”으로 명시돼 있습니다. 나노 바나나(Nano Banana, 이미지 모델)나 Live API를 써야 하는 워크플로라면 3.1 Pro 단독으로는 안 됩니다. (출처: ai.google.dev 공식 스펙 문서)
Batch API와 캐싱은 지원합니다. 대용량 반복 작업이 있다면 Batch API로 비용을 낮추는 방향을 먼저 검토하는 게 낫습니다. 캐싱도 마찬가지로, 시스템 프롬프트가 긴 에이전트를 돌린다면 캐싱 처리된 토큰은 단가가 달라집니다.
자주 물어보는 것들 — Q&A
Q1. Gemini 3 Pro와 Gemini 3.1 Pro는 이름이 비슷한데, 완전히 다른 모델인가요?
다른 모델입니다. Gemini 3 Pro 프리뷰는 2025년 11월에 출시됐고, Gemini 3.1 Pro 프리뷰는 2026년 2월에 나왔습니다. 그리고 Gemini 3 Pro 프리뷰는 2026년 3월 9일에 이미 종료됐습니다. API에서 호출하던 모델 코드를 아직 안 바꿨다면 지금 에러가 나고 있을 가능성이 높습니다.
Q2. 일반 Gemini 앱 사용자도 3.1 Pro를 쓸 수 있나요?
네, 쓸 수 있습니다. 모델 드롭다운에서 ‘Pro’를 선택하면 됩니다. 다만 Google AI Pro 또는 Ultra 구독자에게는 더 높은 사용 한도가 적용됩니다. 무료 사용자도 일정 범위 안에서 사용 가능하지만, 한도가 빨리 찰 수 있습니다.
Q3. 100만 토큰까지 넣을 수 있다는데, 막상 넣으면 비용이 얼마나 되나요?
100만 토큰 전부를 입력으로 쓴다면 입력 비용만 $4.00/1M 기준으로 $4.00가 됩니다(20만 초과 구간 단가 적용). 출력이 5만 토큰 나온다고 가정하면 출력도 $0.90. 요청 한 건에 약 $5 내외입니다. 하루 100건이면 월 1만5천 달러 수준입니다. 긴 컨텍스트는 먼저 countTokens 엔드포인트로 예상 비용을 확인하고 쓰는 걸 권합니다.
Q4. Deep Think와 3.1 Pro 중 어떤 게 더 똑똑한가요?
단순하게 비교하기 어렵습니다. Deep Think는 Google AI Ultra 구독자 전용 추론 모드로, 더 오래 생각하는 방식입니다. ARC-AGI-2 기준으로 3.1 Pro가 77.1%, Deep Think가 45.1%로 보이지만, 이 두 수치는 서로 다른 테스트 조건에서 나온 값입니다. 단답형·빠른 작업은 3.1 Pro, 수학·과학처럼 깊이 파는 작업은 Deep Think가 유리한 경향이 있습니다.
Q5. 지식 단절이 2025년 1월이면, 최신 정보는 아예 못 쓰나요?
검색 그라운딩(Search Grounding)을 활성화하면 실시간 검색으로 최신 정보를 보완할 수 있습니다. 공식 문서에 지원된다고 나와 있습니다. 다만 그라운딩 없이 순수하게 모델 자체 지식만 쓰는 상황에서는 2025년 2월 이후 사건이나 발표에 대해서는 잘못된 정보를 출력할 수 있으니 주의가 필요합니다.
마치며 — 쓰기 전에 이것만 체크하세요
Gemini 3.1 Pro는 분명히 잘 만든 모델입니다. ARC-AGI-2 77.1%는 숫자 자체가 설명하는 것보다 훨씬 의미 있는 성능 도약이고, 코딩과 에이전트 작업에서 실무 현장에서 쓸 수 있는 수준입니다.
다만 세 가지는 반드시 먼저 확인해야 합니다. 지금 쓰는 모델 코드가 종료된 gemini-3-pro-preview인지 체크하는 것, 20만 토큰 초과 구간에서 비용이 2배로 뛰는 구조를 인지하는 것, 지식 단절이 2025년 1월이라 최신 정보가 필요하다면 검색 그라운딩을 반드시 켜야 한다는 것입니다.
구글은 공식 문서에서 “에이전트 워크플로에 최적화됐다”고 강조합니다. 하지만 에이전트를 제대로 돌리려면 customtools 트랙을 쓸지, 일반 트랙을 쓸지도 판단해야 합니다. 기능이 좋아질수록 세팅도 세밀해집니다. 이 글이 그 판단에 조금이나마 도움이 됐으면 합니다.
📚 본 포스팅 참고 자료
본 포스팅은 2026년 3월 22일 공개된 공식 문서 및 발표 자료를 기반으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 특히 API 가격, 모델 스펙, 지원 기능은 Google이 별도 고지 없이 변경할 수 있으므로 중요한 의사결정 전에 반드시 공식 문서를 최신 상태로 확인하세요.

댓글 남기기