2026.02.19 기준
Preview 버전
gemini-3.1-pro-preview

Gemini 3.1 Pro, 벤치마크가 전부일까요?

ARC-AGI-2 점수가 단숨에 2배 넘게 뛰었습니다. 그런데 실제 업무 성과 지표에서는 최하위입니다. 숫자가 좋다고 다 좋은 건 아니라는 걸, 공식 벤치마크 수치로 직접 확인했습니다.

Gemini 3.1 Pro란 — 한 줄 정리부터

Gemini 3.1 Pro는 구글이 2026년 2월 19일 공개한 Gemini 3 시리즈의 최신 버전입니다. 모델 코드명은 gemini-3.1-pro-preview이고, 2026년 3월 31일 현재 여전히 프리뷰(Preview) 상태입니다. (출처: Google AI for Developers 공식 문서, 2026.03.21 업데이트)

핵심 스펙을 먼저 정리하면, 입력 토큰 한도 1,048,576(약 100만 토큰), 출력 토큰 한도 65,536, 지식 단절 시점은 2025년 1월입니다. 멀티모달 입력(텍스트·이미지·동영상·오디오·PDF)을 모두 지원하지만, 이미지 생성과 실시간 Live API는 지원하지 않습니다. 이 두 가지가 의외로 자주 막히는 지점입니다.

일반 이용자는 Gemini 앱(Google AI Pro·Ultra 구독자 전용)과 NotebookLM(Pro·Ultra)을 통해 쓸 수 있고, 개발자는 Google AI Studio 및 Gemini API로 접근합니다. 구글 안티그래비티(Google Antigravity) 플랫폼, 안드로이드 스튜디오, Vertex AI에서도 프리뷰 버전이 제공됩니다.

▲ 목차로 돌아가기

ARC-AGI-2 77.1%가 얼마나 큰 숫자인지

솔직히 말하면, 이 숫자를 처음 봤을 때 소수점이 잘못 찍힌 줄 알았습니다. ARC-AGI-2는 AI가 한 번도 학습한 적 없는 순수 논리 패턴을 풀게 하는 벤치마크로, 기존 모델들이 30~50%대에 머물던 영역입니다. Gemini 3 Pro가 31.1%였는데, 3.1 Pro가 77.1%를 기록했습니다. (출처: Google DeepMind 공식 모델 카드, 2026.02.19)

💡 공식 발표문과 경쟁사 수치를 같이 놓고 보니 이런 차이가 보였습니다

같은 벤치마크에서 Claude Opus 4.6은 68.8%, Claude Sonnet 4.6은 58.3%, GPT-5.2는 52.9%입니다. 이전 세대 대비 성능이 2배를 넘는 점프를 한 번의 포인트 릴리스에서 이뤄낸 모델은 최근 2~3년 AI 역사에서 거의 없었습니다. 단순히 파라미터를 늘린 게 아니라 구조적인 변화가 있었다는 신호입니다.

과학 지식 벤치마크인 GPQA Diamond에서도 94.3%를 기록하며, 같은 표에 올라온 경쟁 모델 중 가장 높은 점수를 냈습니다(GPT-5.2 92.4%, Claude Opus 4.6 91.3% 순). 컴피티티브 코딩 지표인 LiveCodeBench Pro에서도 Elo 2887로 2위 모델(2439)보다 400포인트 이상 앞섰습니다. 점수 차이가 크면 클수록 현실 코딩 실력의 격차도 크다는 의미입니다.

코딩 에이전트 벤치마크인 Terminal-Bench 2.0에서는 68.5%로 1위(Sonnet 4.6 59.1%, GPT-5.2 54.0% 대비)를 기록했고, 실무 코딩 난이도의 SWE-Bench Verified에서도 80.6%로 최상위권에 위치합니다.

▲ 목차로 돌아가기

그래도 안 되는 게 있습니다

기대했던 것과 달랐던 부분도 있습니다. GDPval-AA라는 벤치마크를 보면 이야기가 달라집니다. 이건 44개 직종에 걸친 실무 지식 작업을 평가하는 지표인데, Gemini 3.1 Pro의 Elo 점수는 1317입니다. Claude Sonnet 4.6은 1633, Claude Opus 4.6은 1606, GPT-5.2는 1462입니다. 비교 대상 중 최하위입니다. (출처: Google DeepMind 공식 모델 카드, 2026.02.19)

💡 벤치마크를 고르는 방식이 곧 모델 선택 기준이 됩니다

구글 DeepMind가 공개한 비교표에 이 수치가 버젓이 실려 있습니다. 논리 추론·코딩·과학 분야에서는 1위를 다투면서도, 보고서 작성·비즈니스 분석·의사결정 지원처럼 ‘사람이 쓰는 글쓰기’에 가까운 과제에서는 경쟁 모델에 한참 뒤처진다는 뜻입니다. 같은 모델이 맞나 싶을 만큼 영역별 편차가 큽니다.

실사용 후기 중에서도 주목할 만한 내용이 있었습니다. Reddit 커뮤니티에서는 “에이전트 워크플로우에서 도구를 제대로 사용하지 못하고, 행동을 취하는 대신 계획만 반복한다”는 지적이 2월 출시 직후부터 올라왔습니다(Reddit r/GeminiAI, 2026.02.21). SWE-Bench Pro에서도 GPT-5.2(55.6%)에 근소하게 뒤처지는 54.2%를 기록했는데, 이건 대규모 레거시 코드베이스를 다루는 실무 상황에서 체감 차이가 생길 수 있는 수치입니다.

게다가 지식 단절 시점이 2025년 1월입니다. GPT-5.2는 2025년 8월 31일, Claude Sonnet 4.6·Opus 4.6은 2025년 5~8월을 기준으로 잡고 있습니다. 최신 사건이나 2025년 중반 이후 정보를 활용해야 하는 작업이라면 검색 그라운딩(Search Grounding) 기능을 함께 켜야 하고, 이건 별도 비용이 발생합니다.

▲ 목차로 돌아가기

가격이 싸 보여도 함정이 있는 이유

API 기본 가격만 보면 Gemini 3.1 Pro가 매력적입니다. 200,000토큰 이하에서 입력 $2/1M토큰, 출력 $12/1M토큰입니다. Claude Sonnet 4.6(입력 $3/1M, 출력 $15/1M)보다 저렴하고, Claude Opus 4.6(입력 $5/1M, 출력 $25/1M)에 비하면 절반 이하입니다. (출처: ai.cc 2026 AI API Comparison, 2026.03.28)

📊 입력 50,000토큰 + 출력 10,000토큰 기준 1회 호출 비용 비교

모델	입력 비용	출력 비용	합계
Gemini 3.1 Pro	$0.10	$0.12	$0.22
Claude Sonnet 4.6	$0.15	$0.15	$0.30
Claude Opus 4.6	$0.25	$0.25	$0.50
GPT-5.2	$0.09	$0.14	$0.23

(출처: acecloud.ai, 2026.02.27 / 계산: 50,000÷1,000,000 × 단가, 소수점 2자리 반올림)

여기서 주의해야 할 게 있습니다. Gemini 3.1 Pro는 200,000토큰을 초과하면 입력 $4/1M, 출력 $18/1M으로 가격이 올라갑니다. 대용량 코드베이스나 긴 문서를 자주 다루는 작업이라면 200k 기준 가격만 보고 선택했다가 실제 청구서에서 당황할 수 있습니다. GPT-5.2는 캐시드 입력($0.175/1M)이 있어 반복적인 컨텍스트를 재사용하는 에이전트 루프에서는 실질 비용이 역전되기도 합니다.

▲ 목차로 돌아가기

Deep Think — 빠를수록 좋다는 생각이 틀린 경우

AI 모델에게 “더 빠른 응답”을 기대하는 건 자연스러운 일입니다. 그런데 Gemini 3.1 Pro에서 구글이 선택한 방향은 정반대였습니다. 구글은 이 모델을 의도적으로 느리게 설계했습니다. 답을 내놓기 전에 먼저 내부적으로 문제를 곱씹는 Deep Think 기능이 핵심입니다. 이게 ARC-AGI-2에서 31.1% → 77.1%로 뛴 원동력입니다. (출처: Google Blog, 2026.02.19)

Deep Think는 선택적으로 활성화하는 기능입니다. 일반 쿼리에서 켜두면 응답 속도가 눈에 띄게 느려지고, 과금도 별도로 발생합니다. 구글 공식 문서에 “Deep Think 쿼리는 표준 추론 쿼리보다 추가 컴퓨팅을 요구한다”고 나와 있습니다. (출처: Google DeepMind 모델 카드, 2026.02.19) 빠른 답변이 필요한 챗봇 UI나 실시간 응답 서비스에 Gemini 3.1 Pro를 붙이면서 Deep Think를 켜놓으면 비용과 속도 모두에서 손해를 봅니다.

💡 같은 모델이지만 Deep Think ON/OFF에 따라 다른 제품처럼 쓰입니다

Deep Think를 켰을 때의 Gemini 3.1 Pro(ARC-AGI-2 77.1%)와 껐을 때의 성능 수치는 공개되지 않았습니다. 구글이 공개한 벤치마크는 모두 Thinking(High) 모드 기준입니다. 일반 추론 모드에서는 이 수치가 어느 정도인지 구글 공식 문서에서 별도 수치를 밝히지 않았습니다. 상황에 맞는 모드를 직접 테스트해보는 게 중요합니다.

반대로 복잡한 과학 논문 분석, 다단계 코드 마이그레이션, 모순된 데이터셋 합성 같은 작업에는 Deep Think가 실질적인 차이를 만들어냅니다. 느리다는 게 문제가 아니라, 어느 상황에서 느려야 하는지를 아는 것이 이 모델을 제대로 쓰는 방법입니다.

▲ 목차로 돌아가기

모델별 비교 — 어떤 상황에서 뭘 써야 하는지

공식 벤치마크 수치와 실사용 피드백을 교차하면 각 모델이 잘하는 영역이 꽤 다르게 갈립니다. 논리·추론·과학 분야는 Gemini 3.1 Pro, 비즈니스 글쓰기·실무 분석은 Claude 4.6 계열, 코딩 에이전트와 툴 호출 반복 작업은 GPT-5.2가 비용 면에서 유리합니다.

작업 유형	Gemini 3.1 Pro	Claude Sonnet 4.6	GPT-5.2
논리·추론 (ARC-AGI-2)	77.1% ⭐	58.3%	52.9%
실무 지식 글쓰기 (GDPval Elo)	1317 ⚠️	1633 ⭐	1462
에이전트 코딩 (Terminal-Bench 2.0)	68.5% ⭐	59.1%	54.0%
기본 입력 컨텍스트	100만 토큰 ⭐	20만 토큰	40만 토큰
입력 가격 (기본, /1M)	$2.00	$3.00	$1.75 ⭐
오디오·영상 입력	✅ 지원	❌ 미지원	❌ 미지원
지식 단절 시점	2025.01 ⚠️	2025.08	2025.08 ⭐

(출처: Google DeepMind 모델 카드·acecloud.ai, 2026.02.27 기준 / ⭐ 해당 항목 1위, ⚠️ 주의 필요 항목)

멀티모달 입력이 필수인 작업(회의 음성 분석, 동영상 요약, PDF 대용량 처리)이라면 경쟁 모델들이 아직 따라오지 못하는 영역입니다. 단일 모델로 텍스트+이미지+오디오+영상+PDF를 한 번에 다루는 건 현재 Gemini 3.1 Pro가 유일합니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

▶ Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?

일반 이용자는 Google AI Pro 또는 Ultra 플랜 구독자만 Gemini 앱과 NotebookLM에서 쓸 수 있습니다. 개발자는 Google AI Studio에서 프리뷰 버전을 무료로 체험할 수 있지만, Gemini API로 실제 서비스를 붙일 때는 API 요금이 발생합니다. 무료 티어 한도 내에서 실험적 사용은 가능합니다.

▶ Q2. Deep Think를 항상 켜두는 게 좋을까요?

그렇지 않습니다. Deep Think는 복잡한 추론이 필요한 작업에서 효과를 발휘하지만, 응답 속도가 느려지고 호출 비용도 올라갑니다. 간단한 요약, 번역, 빠른 답변이 필요한 상황에서는 오히려 불필요한 지연과 비용 낭비로 이어집니다. 작업 유형에 맞춰 선택적으로 활성화하는 게 맞습니다.

▶ Q3. 200만 토큰이 넘는 문서도 처리할 수 있나요?

▶ Q4. Preview 상태라 프로덕션에 붙이면 안 되나요?

구글 공식 문서 기준으로는 프리뷰 상태에서도 API 호출이 가능하고, Vertex AI와 Google AI Studio를 통한 기업 배포도 이미 열려 있습니다. 다만 프리뷰 기간 중에는 기능이 바뀔 수 있고, 일부 에이전트 기능은 아직 검증 중이라는 점을 구글이 공개적으로 인정했습니다. 프로덕션 투입 시 롤백 플랜을 함께 준비하는 게 현실적입니다.

▶ Q5. 한국어 성능은 어느 정도인가요?

공식 벤치마크 중 MMMLU(다국어 Q&A)에서 Gemini 3.1 Pro는 92.6%로 비교 대상 모델 중 가장 높은 점수를 기록했습니다(Claude Sonnet 4.6 89.3%, GPT-5.2 89.6%). 다만 MMMLU가 한국어만을 별도로 측정하는 벤치마크는 아니라는 점에서, 한국어 전용 성능은 직접 테스트로 확인이 필요합니다. 지식 단절 시점(2025.01)이 이전 버전보다 더 오래됐기 때문에 최근 한국 뉴스·정책 관련 작업에서는 검색 그라운딩을 함께 써야 합니다.

▲ 목차로 돌아가기

마치며 — 총평

논리·추론·과학·코드 작업 중심이고, 긴 문서나 오디오·영상까지 함께 처리해야 한다면 지금 시점에서 Gemini 3.1 Pro는 탁월한 선택입니다. 반면에 보고서 작성, 비즈니스 커뮤니케이션, 의사결정 보조처럼 ‘사람이 쓰는 언어’에 가까운 작업이 주라면 Claude Sonnet 4.6이 여전히 앞섭니다.

프리뷰 딱지가 아직 붙어 있다는 점도 빼놓을 수 없습니다. 기능 변경 가능성을 열어두고, Deep Think 과금 구조와 200k 초과 시 요금 구간 변화를 사전에 계산해두는 게 실제 활용에서 훨씬 유리합니다. 벤치마크가 전부가 아니라는 걸 이 모델이 스스로 증명하고 있습니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

Google DeepMind — Gemini 3.1 Pro 공식 모델 카드
https://deepmind.google/models/gemini/pro/
Google AI for Developers — Gemini 3.1 Pro Preview 공식 스펙 문서 (2026.03.21 업데이트)
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-pro-preview?hl=ko
Google Blog 공식 한국어 발표문 (2026.02.19)
https://blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/
acecloud.ai — Gemini 3.1 Pro vs Claude Sonnet 4.6 vs Opus 4.6 vs GPT-5.2 비교 (2026.02.27)
https://acecloud.ai/blog/gemini-3-1-pro-vs-sonnet-4-6-vs-opus-4-6-vs-gpt-5-2/
ai.cc — 2026 AI API Comparison (2026.03.28)
https://www.ai.cc/blogs/2026-ai-api-comparison-openai-claude-gemini-grok-pricing-performance/

※ 본 포스팅은 2026년 4월 1일 기준으로 작성되었으며, 작성 이후 Gemini 3.1 Pro의 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치와 스펙은 공식 발표 자료를 기반으로 하였으며, 이후 Google의 업데이트에 따라 달라질 수 있습니다. IT/AI 서비스 특성상 프리뷰 기간 중 기능 변동 가능성이 있으니 최신 공식 문서를 함께 확인하시길 권장합니다.

Gemini 3.1 Pro, 벤치마크가 전부일까요?

Gemini 3.1 Pro란 — 한 줄 정리부터

ARC-AGI-2 77.1%가 얼마나 큰 숫자인지

그래도 안 되는 게 있습니다

가격이 싸 보여도 함정이 있는 이유

Deep Think — 빠를수록 좋다는 생각이 틀린 경우

모델별 비교 — 어떤 상황에서 뭘 써야 하는지

자주 묻는 질문 5가지

마치며 — 총평

📎 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Pro, 벤치마크가 전부일까요?

Gemini 3.1 Pro, 벤치마크가 전부일까요?

Gemini 3.1 Pro란 — 한 줄 정리부터

ARC-AGI-2 77.1%가 얼마나 큰 숫자인지

그래도 안 되는 게 있습니다

가격이 싸 보여도 함정이 있는 이유

Deep Think — 빠를수록 좋다는 생각이 틀린 경우

모델별 비교 — 어떤 상황에서 뭘 써야 하는지

자주 묻는 질문 5가지

마치며 — 총평

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기