2026.02.19 출시 기준
gemini-3.1-pro-preview
지식 컷오프: 2025년 1월

Gemini 3.1 Pro, 1위라고요? 이 수치 먼저 보세요

ARC-AGI-2 77.1%, GPQA Diamond 94.3%… 숫자만 보면 압도적 1위입니다. 근데 공식 Model Card를 같이 펴놓고 보면 얘기가 달라집니다. SWE-Bench에서 Claude Opus 4.6한테 0.2%p 차이로 졌고, GDPval-AA에서는 Sonnet 4.6이 316점이나 앞서 있습니다. 무엇보다 Free 티어가 아예 없습니다.

77.1%

ARC-AGI-2 (공식)

80.6%

SWE-Bench Verified

$2/$12

입력/출력 per 1M tok

1M tok

컨텍스트 창

Gemini 3.1 Pro가 뭔지, 한 줄로

Gemini 3.1 Pro는 2026년 2월 19일 Google DeepMind가 공개한 Gemini 3 시리즈의 두 번째 메이저 모델입니다. 공식 명칭은 gemini-3.1-pro-preview이며, 2025년 11월 출시된 Gemini 3 Pro의 직계 후속입니다. (출처: Google DeepMind Model Card, 2026.02.19)

Google AI Studio, Gemini API, Vertex AI, NotebookLM(Pro/Ultra 전용), Google Antigravity, Android Studio에서 접근 가능합니다. 핵심 특징은 텍스트·이미지·오디오·비디오·PDF를 하나의 모델에서 처리하는 네이티브 멀티모달, 그리고 Deep Think 추론 모드입니다. (출처: Gemini API 공식 모델 페이지, 2026.02)

지식 컷오프가 2025년 1월이라는 건 공식 스펙 시트에 딱 이렇게 적혀 있습니다. 그러니까 2025년 이후 사건에 대해 이 모델에게 물으면 빠르게 틀립니다.

▲ 목차로 돌아가기

벤치마크 숫자, 공식 문서에서 직접 읽기

Gemini 3.1 Pro가 1위라는 말이 많은데, 공식 Model Card에 나온 전체 표를 보면 그림이 좀 달라집니다. 전부 1위는 아닙니다.

벤치마크	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
ARC-AGI-2	77.1% 🥇	68.8%	52.9%
GPQA Diamond	94.3% 🥇	91.3%	92.4%
SWE-Bench Verified	80.6%	80.8% 🥇	80.0%
GDPval-AA Elo	1317	1606 🥇	1462
Terminal-Bench 2.0	68.5% 🥇	65.4%	54.0%
BrowseComp	85.9% 🥇	84.0%	65.8%

(출처: Google DeepMind Gemini 3.1 Pro Model Card, 2026.02.19 — 공식 링크)

💡 공식 발표문과 실제 벤치마크 표를 나란히 놓고 보니 이런 차이가 보였습니다. GDPval-AA는 전문가 수준의 실제 업무 태스크를 평가하는 지표인데, 여기서 Claude Sonnet 4.6(1633)이 Gemini 3.1 Pro(1317)를 316점 앞섭니다. 추론 성능이 압도적이라는 모델이 실무 태스크에서는 오히려 Sonnet급에 밀린다는 뜻입니다.

▲ 목차로 돌아가기

1M 토큰이 항상 강점은 아닌 이유

Gemini 3.1 Pro의 컨텍스트 창은 1,048,576 토큰(약 1M)입니다. 공식 스펙 시트에 그대로 나와 있습니다. (출처: Gemini API 모델 페이지, 2026.02)

1M에서 실제 성능은 어떻게 되나요?

공식 Model Card에 MRCR v2(8-needle) 벤치마크가 나옵니다. 128k 평균 기준 84.9%로 Claude Opus 4.6과 동률인데, 1M 포인트와이즈 기준에서는 26.3%에 그칩니다. 128k 구간에서 85점짜리가 1M에서 26점으로 떨어지는 것입니다. 긴 문서를 통째로 던져도 되겠다고 생각하면 조금 달라질 수 있습니다.

💡 Claude Opus 4.6, GPT-5.2 기준으로 “1M pointwise” 항목이 아예 “Not supported”로 표기돼 있습니다. 1M 컨텍스트 지원 자체는 Gemini 3.1 Pro가 유일하지만, 막상 그 구간에서의 정확도(26.3%)는 경쟁 모델이 128k에서 보여주는 수치(85% 전후)보다 훨씬 낮습니다. (출처: Gemini 3.1 Pro Model Card)

그러니까 1M 토큰이 필요한 작업이라면 경쟁자가 없고, 128k 이하 구간이라면 Claude Opus 4.6과 사실상 동등합니다.

▲ 목차로 돌아가기

API 가격, 계산해봤습니다

Gemini 3.1 Pro는 Free 티어가 없습니다. 공식 가격 페이지에 “Not available”로 명시돼 있습니다. (출처: Gemini API 공식 가격 페이지, 2026.03 기준)

유료 티어 기준 가격 (Standard)

항목	≤200k 토큰	>200k 토큰
입력 (1M 토큰당)	$2.00	$4.00
출력 (1M 토큰당, thinking 포함)	$12.00	$18.00
Batch API 입력 (50% 할인)	$1.00	$2.00

실제로 얼마나 나올까요?

GPT-4o 대비 체감 비교를 위해 간단히 계산해봤습니다. 입력 30k 토큰 + 출력 5k 토큰짜리 작업을 하루 100회 돌린다고 가정하면:

📊 하루 100회 기준 비용 추정

입력: 30,000 × 100 = 3,000,000 토큰 → $2.00 × 3 = $6.00

출력: 5,000 × 100 = 500,000 토큰 → $12.00 × 0.5 = $6.00

합계: 일 $12 → 월 약 $360 (약 50만 원)

Google Search Grounding을 붙이면 월 5,000회 초과분부터 1,000 쿼리당 $14가 추가됩니다. 검색 기반 에이전트를 만드는 분들은 이 부분이 예상보다 빠르게 올라갑니다.

▲ 목차로 돌아가기

Deep Think 모드, 이 영역에선 오히려 더 약합니다

Deep Think 모드를 켜면 추론 성능이 올라간다는 게 일반적인 인식입니다. 근데 공식 Frontier Safety Framework 평가 결과를 보면 사이버 보안 영역에서는 반대 현상이 나타납니다.

공식 문서에서 확인한 내용

Google DeepMind 공식 Model Card에 이렇게 적혀 있습니다: “Accounting for inference costs, the model with Deep Think mode performs considerably worse than without Deep Think mode. Even at high levels of inference, results for the model with Deep Think mode do not suggest higher capability than without Deep Think mode.” (출처: Gemini 3.1 Pro Model Card — Frontier Safety, 2026.02.19)

💡 추론 비용까지 감안했을 때, 사이버 보안 태스크에서 Deep Think 모드는 오히려 표준 모드보다 성능이 낮았습니다. 더 생각하게 할수록 이 영역에서 더 못하는 것입니다. Google이 공식 이유를 별도로 밝히지 않은 부분이라 원인은 아직 공개되지 않았습니다.

보안 관련 도구나 취약점 분석 파이프라인에 이 모델을 넣는다면, Deep Think를 항상 켜는 게 정답이 아닐 수 있습니다.

▲ 목차로 돌아가기

실사용 흐름에서 드러나는 한계

벤치마크 말고 실제로 써보는 분들의 반응을 모아봤습니다. Reddit r/google_antigravity에서 출시 당일 평가를 올린 개발자(업보트 427, 비율 0.97)의 글이 꽤 솔직합니다.

코드 구현보다 계획 작성에서 먼저 막힙니다

Python 대규모 리팩터링 태스크에서 Claude Opus 4.6은 8개 단계, 세부 하위 태스크가 포함된 약 25,000 토큰 분량의 계획서를 작성했습니다. 같은 프롬프트와 시스템 프롬프트를 Gemini 3.1 Pro에 넣었더니 6개 단계에 각 단계당 불릿 3개, 총 2,500 토큰 수준이었습니다. 10분의 1 수준의 분량이며, 엣지 케이스가 빠져 있어 그대로 쓰기 어려웠다고 합니다.

사용량 한도 투명성이 낮습니다

같은 글에서 “Google is so opaque with their usage limits. It is impossible to see where you are on a weekly basis”라는 지적이 나옵니다. 실제 구글 지원 포럼에도 “Dynamic Thinking 과부하로 인한 극심한 지연”을 보고한 사례가 2026년 3월 기준으로 올라와 있습니다. (출처: Google Support Community, 2026.03.03)

💡 API 레이트 리밋 초과(429 오류) 발생 빈도가 다른 모델에 비해 높다는 보고가 꾸준히 나옵니다. Preview 단계라 아직 안정화가 안 됐을 가능성이 있고, Google이 공식적으로 주간 한도를 수치로 밝히지 않고 있어 프로덕션 파이프라인에 넣기 전에 충분한 테스트가 필요합니다.

▲ 목차로 돌아가기

어떤 상황에서 쓸 만한가

정리하면 이렇습니다. 아래 조건에서는 현재 나온 모델 중 가장 강력한 선택지입니다.

✅ 이 상황에서 강합니다

200k~1M 토큰짜리 대형 코드베이스·문서 분석
비디오·오디오가 포함된 멀티모달 파이프라인
ARC-AGI급 추상 추론이 필요한 연구·퍼즐
터미널 기반 에이전틱 코딩 (Terminal-Bench 68.5%)
Google 생태계(Antigravity, NotebookLM Pro) 내 워크플로

⚠️ 이 상황에선 다시 생각해볼 것

상세한 계획서·보고서 작성이 핵심인 업무
보안·취약점 분석(Deep Think 역효과 가능)
GDPval-AA 기준 전문가급 실무 태스크
안정적인 프로덕션 배포 (아직 Preview 단계)
비용 최적화가 최우선인 고빈도 호출 서비스

비용 대비 성능으로 보면, Batch API를 활용하면 입력 $1.00/1M, 출력 $6.00/1M으로 절반 가격에 쓸 수 있습니다. 실시간성이 필요 없는 대규모 처리는 Batch 모드가 훨씬 현실적입니다.

▲ 목차로 돌아가기

자주 묻는 것들

Q. Gemini 3.1 Pro를 무료로 쓸 수 있나요?

공식 가격 페이지 기준으로 Free 티어는 “Not available”입니다. Google AI Studio에서 API 키를 발급받아도 결제 수단 등록 후 유료 티어로만 사용 가능합니다. Gemini 3.1 Flash-Lite는 Free 티어가 있으니 우선 테스트용으로 활용할 수 있습니다. (출처: Gemini API 공식 가격 페이지, 2026.03 기준)

Q. Gemini 3.1 Pro와 Gemini 3.1 Flash의 차이는 뭔가요?

3.1 Pro는 최고 성능 모델로 입력 $2/1M, 출력 $12/1M입니다. 3.1 Flash는 속도·비용 최적화 모델로 입력 $0.50/1M, 출력 $3.00/1M입니다. 가격이 4배 차이 납니다. 단순 처리·고빈도 호출은 Flash가, 복잡한 추론·멀티모달은 Pro가 적합합니다. Flash에는 Free 티어도 있습니다.

Q. Claude Opus 4.6와 비교하면 어느 쪽이 낫나요?

태스크별로 다릅니다. ARC-AGI-2(추상 추론), Terminal-Bench(터미널 코딩)에서는 Gemini 3.1 Pro가 앞섭니다. SWE-Bench Verified(코드 수정), GDPval-AA(전문가 실무)에서는 Claude Opus 4.6가 앞섭니다. 가격은 Gemini 3.1 Pro 출력이 $12/1M, Claude Opus 4.6가 $15/1M로 Gemini가 저렴합니다. 상세한 보고서·계획서 작성이 중요하다면 Opus 4.6가 실사용에서 더 만족도가 높다는 평가가 많습니다.

Q. gemini-3.1-pro-preview-customtools는 언제 씁니까?

커스텀 툴(예: view_file, search_code 같은 직접 정의한 함수)과 bash를 함께 쓰는 에이전틱 워크플로에서 커스텀 툴 우선순위를 높이기 위해 별도로 분리된 엔드포인트입니다. 단, 커스텀 툴이 필요 없는 일반 태스크에서는 품질 편차가 생길 수 있다고 공식 문서에서 밝히고 있습니다. (출처: Gemini API 모델 페이지)

Q. 언제 GA(정식 출시)가 되나요?

공식 블로그에서 “releasing 3.1 Pro in preview to validate these updates… before we make it generally available soon”이라고 밝혔습니다. 구체적인 GA 날짜는 공개하지 않았습니다. Preview 단계에서는 레이트 리밋이 더 제한적이고 모델이 변경될 수 있다는 점을 감안해야 합니다. (출처: Google 공식 블로그, 2026.02.19)

▲ 목차로 돌아가기

마치며

Gemini 3.1 Pro는 분명히 잘 만든 모델입니다. ARC-AGI-2 77.1%, GPQA Diamond 94.3%는 숫자 장난이 아니라 실제로 추론 성능이 크게 올라간 증거입니다. 멀티모달 처리와 1M 컨텍스트가 필요한 작업이라면 지금 당장 쓸 수 있는 가장 강력한 선택지입니다.

근데 “벤치마크 전부 1위”는 아닙니다. 전문가 실무 태스크(GDPval-AA), 상세 보고서 작성, SWE-Bench 코드 수정에서는 Claude Opus 4.6에 밀리고, 1M 컨텍스트 구간 정확도는 26.3%로 낮습니다. Free 티어가 없다는 점도 진입 장벽입니다. Preview라 안정성도 아직 미지수입니다.

비용까지 고려하면 “Opus 대비 저렴하게 비슷한 성능”이라는 포지셔닝이 맞는 구간이 분명히 있습니다. 다만 그 구간 외에서는 아직 Opus를 대체하기 어렵습니다. 특정 워크플로에서 테스트해보고 가격 대비 만족도를 직접 확인하는 게 가장 정직한 판단 방법입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Google DeepMind — Gemini 3.1 Pro Model Card (2026.02.19) https://deepmind.google/models/model-cards/gemini-3-1-pro/
Google AI for Developers — Gemini API Pricing https://ai.google.dev/gemini-api/docs/pricing
Google AI for Developers — Gemini 3.1 Pro Preview 모델 페이지 https://ai.google.dev/gemini-api/docs/models/gemini-3.1-pro-preview
Google Official Blog — Gemini 3.1 Pro 공식 발표 (2026.02.19) https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
Google AI for Developers — Gemini API Changelog https://ai.google.dev/gemini-api/docs/changelog

본 포스팅은 2026년 3월 30일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API 가격, 모델 스펙, 레이트 리밋은 Google의 정책에 따라 사전 고지 없이 변경될 수 있으니 최신 정보는 공식 문서에서 확인하세요.

Gemini 3.1 Pro, 1위라고요? 이 수치 먼저 보세요

Gemini 3.1 Pro가 뭔지, 한 줄로

벤치마크 숫자, 공식 문서에서 직접 읽기