IT/AI · TECH
Gemini 3.1 Pro Preview
Gemini 3.1 Pro, 추론 2배라는 게
어디서만 맞는 말일까요?
ARC-AGI-2 77.1%는 진짜입니다. 그런데 막상 코딩 파이프라인에 붙여 보면 Claude Opus 4.6에 SWE-Bench 기준 4.9%p 뒤집힙니다. 공식 벤치마크를 그대로 가져와서 어디서 쓰고 어디서 피해야 하는지 정리했습니다.
Gemini 3.1 Pro가 뭐가 달라졌나요?
2026년 2월 19일, Google은 Gemini 3.1 Pro를 프리뷰로 공개했습니다. 이전 모델들과 다른 점은 “.1″이라는 버전 표기인데, 구글 역사상 처음 쓰인 증분 업데이트 방식입니다. 기존에는 2.0 → 2.5처럼 큰 폭으로 올렸는데, 이번엔 3 → 3.1로 딱 한 자리만 올렸습니다. 이게 단순한 숫자 선택이 아닙니다. 구글 공식 블로그에는 “광범위한 기능 확장이 아닌, 추론 인텔리전스의 집중 업그레이드”라고 명시돼 있습니다. (출처: blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/, 2026.02.19)
구조 자체는 Gemini 3 Pro와 동일합니다. 1M 토큰 컨텍스트 윈도우, 텍스트·이미지·오디오·비디오를 동시에 처리하는 멀티모달 구조 그대로입니다. 바뀐 건 내부 추론 가중치와 에이전틱 워크플로우 성능입니다. 쉽게 말하면 껍데기는 그대로인데 두뇌가 바뀐 셈입니다.
API에서는 gemini-3.1-pro-preview로 접근할 수 있고, Gemini 앱에서는 Google AI Pro($19.99/월) 및 Ultra($249.99/월) 구독자 대상으로 우선 배포 중입니다. 가격은 Gemini 3 Pro와 동일하게 책정됐습니다 — 입력 $1.25/1M 토큰, 출력 $10/1M 토큰. (출처: Google AI Studio, 2026.02.20 확인)
ARC-AGI-2 77.1%의 진짜 의미
💡 공식 발표문과 벤치마크 설계 원리를 같이 놓고 보니 이런 차이가 보였습니다
ARC-AGI-2는 암기한 지식이 아닌, 완전히 새로운 패턴을 보고 규칙을 추론하는 능력을 측정합니다. 데이터셋 설계 자체가 “모델이 학습 데이터로 외워서 풀 수 없도록” 만들어졌습니다. 그래서 이 벤치마크의 점수가 올라갔다는 건, 단순히 더 많이 외웠다는 뜻이 아니라 추론 회로가 실제로 개선됐다는 뜻입니다. (출처: deepmind.google/models/model-cards/gemini-3-1-pro/, 2026.02.19)
Gemini 3.1 Pro는 이 테스트에서 77.1%를 기록했습니다. 직전 버전인 Gemini 3 Pro는 31.1%였습니다. 수치만 보면 약 2.48배입니다. 비교 대상인 Claude Opus 4.6(Thinking Max 기준)은 68.8%, GPT-5.2는 52.9%입니다. ARC-AGI-2 기준으로는 지금 출시된 주요 모델 중 명확한 1위입니다.
그런데 이 수치에 흥분하기 전에 한 가지 확인해야 합니다. DataCamp가 직접 테스트한 결과를 보면, 이 점수는 Thinking High/Max 모드에서 나온 수치입니다. 기본 모드(Low thinking level)에서는 차이가 크게 줄어듭니다. API에서 thinking_level=high나 max로 설정해야 이 성능이 나옵니다. 기본값인 low로 쓰면 훨씬 낮은 성능이 나올 수 있습니다. (출처: DataCamp Gemini 3.1 Hands-On Review, 2026.02.19)
| 모델 | ARC-AGI-2 | 비고 |
|---|---|---|
| Gemini 3.1 Pro (High) | 77.1% | 1위 |
| Claude Opus 4.6 (Max) | 68.8% | 2위 |
| Claude Sonnet 4.6 (Max) | 58.3% | 3위 |
| GPT-5.2 (xhigh) | 52.9% | 4위 |
| Gemini 3 Pro (High) | 31.1% | 전 버전 |
추론 2배가 안 먹히는 세 가지 작업
💡 공식 모델카드의 벤치마크 전체를 늘어놓고 보면 Gemini가 지는 구간이 선명하게 보입니다
① 실제 코딩 파이프라인 — Claude Opus 4.6이 역전
SWE-Bench Verified는 실제 오픈소스 GitHub 이슈를 모델이 자동으로 해결하는 비율을 측정합니다. 실무 코딩과 가장 가깝게 설계된 벤치마크입니다. 여기서 Gemini 3.1 Pro는 80.6%를 기록했고, Claude Opus 4.6은 80.8%였습니다. (출처: deepmind.google/models/model-cards/gemini-3-1-pro/, 2026.02.19) 수치만 보면 거의 비슷해 보이지만, 100개 이슈 처리 기준으로 0.2개 더 해결하는 쪽이 Claude입니다. SWE-Bench Pro(다양한 실전 코딩 작업 포함)에서는 GPT-5.3-Codex가 56.8%로 앞서고, Gemini 3.1 Pro는 54.2%입니다. 이 격차는 장기 에이전틱 코딩 파이프라인에서는 체감됩니다.
② 지식 집약 업무 — Sonnet 4.6에게 큰 폭으로 밀림
GDPval-AA는 금융 모델링, 법률 리서치, 시장 분석처럼 경제적 가치를 창출하는 전문 업무에서의 정확도를 측정합니다. Gemini 3.1 Pro는 1317, Claude Sonnet 4.6은 1633입니다. (출처: deepmind.google/models/model-cards/gemini-3-1-pro/, 2026.02.19) 수치 차이가 316포인트입니다. 지식 업무에서는 Gemini 3.1 Pro가 사실상 두 단계 아래에 있습니다. 재무 분석, 법률 문서 검토, 연구 보고서 작성처럼 “깊은 지식을 좁게 파고드는” 작업에서는 이 격차가 실제로 체감됩니다.
③ 순수 수학 — DeepSeek R2가 더 싸고 더 정확
AIME 2025 기준으로 WhatLLM이 측정한 결과, Gemini 3.1 Pro Preview는 91.2%, DeepSeek R2는 93.8%를 기록했습니다. (출처: whatllm.org/blog/gemini-3-1-pro-preview, 2026.02.20) DeepSeek R2는 이미지·비디오를 못 처리하는 텍스트 전용 모델이지만, 순수 수학 추론만 놓고 보면 Gemini 3.1 Pro보다 정확하고, API 가격은 입력 기준 $0.55/1M 토큰으로 Gemini의 44% 수준입니다. 수학 집약 작업에 특화한다면 DeepSeek R2가 현실적입니다.
가격이 결정적인 이유 — 연 143만 달러 차이
성능 비교보다 실제로 더 중요한 수치가 가격입니다. 동급 최강이라는 Claude Opus 4.6과 비교하면 입력 기준 12배, 출력 기준 7.5배 차이가 납니다. 하루 1,000만 토큰 처리 파이프라인을 기준으로 계산하면 Gemini 3.1 Pro는 일 $56, Claude Opus 4.6은 일 $450입니다. (출처: WhatLLM.org, Vertex AI 가격 정책, 2026.02.20 확인)
📊 하루 1,000만 토큰(70% 입력 / 30% 출력) 기준 비용 계산
Gemini 3.1 Pro: (7M × $1.25) + (3M × $10) / 1,000 = $8.75 + $30 = 약 $56/일
Claude Opus 4.6: (7M × $15) + (3M × $75) / 1,000 = $105 + $225 = 약 $450/일
연간 차이: ($450 – $56) × 365 = 약 $143,810 절감
이 수치가 뜻하는 건, 성능이 완전히 동등하지 않아도 Gemini 3.1 Pro를 선택할 이유가 충분하다는 겁니다. 연간 $143,000 차이면 개발자 한 명 인건비입니다. 코딩 전용 파이프라인이 아니라면, 성능 차이 몇 퍼센트를 감수하더라도 가격이 결정적 변수가 됩니다.
| 모델 | 입력 $/1M | 출력 $/1M | 컨텍스트 | 10M 토큰/일 |
|---|---|---|---|---|
| Gemini 3.1 Pro Preview | $1.25 | $10.00 | 1M | ~$56 |
| DeepSeek R2 (텍스트 전용) | $0.55 | $2.19 | 128K | ~$14 |
| GPT-5.2 | $10.00 | $30.00 | 1M | ~$200 |
| Claude Opus 4.6 | $15.00 | $75.00 | 200K | ~$450 |
Claude Opus 4.6의 컨텍스트 윈도우가 200K인 반면 Gemini 3.1 Pro는 1M입니다. 긴 문서 처리(계약서 묶음, 대형 코드베이스 등)에서 Claude를 쓰면 청킹이나 다중 API 호출이 필요한데, Gemini는 한 번에 처리됩니다. 이 구조적 단순함만으로도 개발 비용이 줄어듭니다.
Preview 딱지가 의미하는 숨은 리스크
💡 출시 발표문에는 안 나오는데, 실제 사용 보고서에는 이 부분이 반복적으로 등장합니다
“Preview” 레이블은 마케팅 표현이 아닙니다. Google은 GA(General Availability) 전까지 프로덕션 SLA를 보장하지 않는다고 공식적으로 명시했습니다. 구체적으로 세 가지 리스크가 있습니다.
첫째, 가중치가 GA 전에 바뀔 수 있습니다. Google의 역대 프리뷰 주기는 6~12주였습니다. (출처: WhatLLM.org, 2026.02.20) 같은 gemini-3.1-pro-preview 엔드포인트를 쓰더라도 가중치가 조용히 업데이트될 수 있습니다. 재현 가능성이 중요한 테스트 환경이라면 날짜를 기록해둬야 합니다.
둘째, 복잡한 JSON 스키마에서 오류가 납니다. WhatLLM의 자체 테스트 결과, 복잡한 JSON 구조화 출력에서 200번 중 1번꼴로 스키마 오류가 발생했습니다. (출처: whatllm.org/blog/gemini-3-1-pro-preview, 2026.02.20) 개발 환경에서는 무시할 수 있는 수준이지만, 청구·컴플라이언스 시스템처럼 100% 정합성이 필요한 프로덕션에서는 치명적입니다.
셋째, GA 전환 시 가격이 바뀔 수 있습니다. Google은 Gemini 2.5 → 3 전환 시기에 가격을 조정한 이력이 있습니다. 현재 $1.25/$10은 프리뷰 가격입니다. GA 후 가격이 오를 경우, 프리뷰 기준으로 작성한 ROI 계산이 틀어질 수 있습니다. Google이 공식 답변을 내놓지 않은 부분입니다.
결국 어떤 작업에 써야 하나요?
솔직히 말하면, “Gemini 3.1 Pro가 최고”라는 말도, “Claude가 더 낫다”는 말도 맥락 없이는 의미 없습니다. 공식 벤치마크를 기반으로 작업 유형별로 정리하면 이렇습니다.
✅ Gemini 3.1 Pro가 유리한 작업
- 비디오 분석: VideoMME 87.2%로 Claude Opus 4.6(79.2%)보다 약 8%p 앞섭니다. 긴 영상 요약, 회의 분석, 교육 영상 처리에 현재 가장 강합니다.
- 추상 추론·과학 분석: ARC-AGI-2 77.1%와 GPQA Diamond 94.3%로 복잡한 논리 추론과 대학원 수준 과학 질문에 강합니다.
- 긴 문서 단일 처리: 1M 토큰 컨텍스트 덕분에 대형 계약서 묶음, 수백 파일짜리 코드베이스를 청킹 없이 처리합니다.
- 비용 민감 대규모 파이프라인: Claude Opus 4.6 대비 입력 토큰 12배 저렴합니다. 하루 처리량이 클수록 이 차이가 결정적입니다.
- 프론트엔드 코드 생성: WebDev Arena 1위를 유지 중입니다. React 컴포넌트, UI 프로토타이핑, SVG 애니메이션 생성에 강합니다.
❌ Gemini 3.1 Pro보다 다른 모델이 나은 작업
- 자율 코딩 에이전트: SWE-Bench Verified에서 Claude Opus 4.6이 소폭 앞섭니다. 코딩만 하는 에이전트라면 Claude가 더 안정적입니다.
- 금융·법률·연구 지식 업무: GDPval-AA에서 Sonnet 4.6(1633)이 Gemini 3.1 Pro(1317)를 크게 앞섭니다. 깊은 전문 지식이 필요한 작업에서는 격차가 납니다.
- GUI 기반 컴퓨터 조작: Claude만 지원하는 기능이고, Gemini 쪽에는 해당 벤치마크가 아직 없습니다.
- 순수 수학 전용 (예산 타이트할 때): DeepSeek R2가 AIME 기준 더 정확하고 가격도 절반 이하입니다.
Q&A 5가지
Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?
Q2. ARC-AGI-2 점수가 높으면 실제 업무에서도 체감이 되나요?
Q3. thinking_level은 뭘 써야 하나요?
thinking_level 파라미터는 low, medium, high, max 네 단계입니다. 복잡한 추론이 필요하면 high 이상을 써야 합니다. 단순 요약이나 빠른 답변이 필요하면 low나 medium이 속도와 비용을 줄여줍니다. medium은 3.1 버전에서 새로 추가된 옵션입니다. (출처: DataCamp, 2026.02.19)
Q4. 프로덕션에 지금 붙여도 되나요?
Q5. NotebookLM에서도 3.1 Pro가 쓰이나요?
마치며
Gemini 3.1 Pro는 ARC-AGI-2 하나만 보면 의심할 여지 없이 현재 가장 강한 추론 모델입니다. 그런데 막상 업무 유형을 세분화하면 얘기가 달라집니다. 코딩에서는 Claude Opus 4.6에 지고, 지식 업무에서는 Claude Sonnet 4.6에 더 크게 집니다. 비디오 분석과 대규모 비용 절감, 긴 컨텍스트 처리가 필요한 곳에서는 지금 당장 써볼 가치가 있습니다.
Preview 상태인 만큼 무조건 프로덕션에 올리는 건 좀 더 지켜보는 게 맞습니다. GA 전환 시 가격이 어떻게 바뀌는지도 아직 이유가 공개되지 않은 부분입니다. 지금 단계에서는 자신의 작업 유형을 먼저 정의하고, 그 작업에서 Gemini 3.1 Pro가 이기는 구간인지를 확인한 뒤 판단하는 게 가장 현실적입니다.
본 포스팅 참고 자료
- Google DeepMind — Gemini 3.1 Pro Model Card (2026.02.19)
- Google 공식 블로그 한국어 — 제미나이 3.1 프로 출시 (2026.02.19)
- DataCamp — Gemini 3.1: Features, Benchmarks, Hands-On Tests (2026.02.19)
- WhatLLM.org — Gemini 3.1 Pro Preview: what the .1 actually means (2026.02.20)
- TechCrunch — Google’s new Gemini Pro model has record benchmark scores (2026.02.19)
본 포스팅은 2026년 2월 19일 기준 / Gemini 3.1 Pro Preview 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 벤치마크 수치는 각 공식 기술 보고서 기준이며, 실제 사용 환경에 따라 결과가 달라질 수 있습니다.











댓글 남기기