Gemini 3.1 Pro, 추론 2배라는 게 어디서만 맞는 말일까요?

Published on

in

Gemini 3.1 Pro, 추론 2배라는 게 어디서만 맞는 말일까요?

2026.02.19 출시 기준
IT/AI · TECH
Gemini 3.1 Pro Preview

Gemini 3.1 Pro, 추론 2배라는 게
어디서만 맞는 말일까요?

ARC-AGI-2 77.1%는 진짜입니다. 그런데 막상 코딩 파이프라인에 붙여 보면 Claude Opus 4.6에 SWE-Bench 기준 4.9%p 뒤집힙니다. 공식 벤치마크를 그대로 가져와서 어디서 쓰고 어디서 피해야 하는지 정리했습니다.

77.1%
ARC-AGI-2
$56/일
vs Claude $450/일
1M 토큰
컨텍스트 윈도우
Preview
GA 아직 미확정

Gemini 3.1 Pro가 뭐가 달라졌나요?

2026년 2월 19일, Google은 Gemini 3.1 Pro를 프리뷰로 공개했습니다. 이전 모델들과 다른 점은 “.1″이라는 버전 표기인데, 구글 역사상 처음 쓰인 증분 업데이트 방식입니다. 기존에는 2.0 → 2.5처럼 큰 폭으로 올렸는데, 이번엔 3 → 3.1로 딱 한 자리만 올렸습니다. 이게 단순한 숫자 선택이 아닙니다. 구글 공식 블로그에는 “광범위한 기능 확장이 아닌, 추론 인텔리전스의 집중 업그레이드”라고 명시돼 있습니다. (출처: blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/, 2026.02.19)

구조 자체는 Gemini 3 Pro와 동일합니다. 1M 토큰 컨텍스트 윈도우, 텍스트·이미지·오디오·비디오를 동시에 처리하는 멀티모달 구조 그대로입니다. 바뀐 건 내부 추론 가중치와 에이전틱 워크플로우 성능입니다. 쉽게 말하면 껍데기는 그대로인데 두뇌가 바뀐 셈입니다.

API에서는 gemini-3.1-pro-preview로 접근할 수 있고, Gemini 앱에서는 Google AI Pro($19.99/월) 및 Ultra($249.99/월) 구독자 대상으로 우선 배포 중입니다. 가격은 Gemini 3 Pro와 동일하게 책정됐습니다 — 입력 $1.25/1M 토큰, 출력 $10/1M 토큰. (출처: Google AI Studio, 2026.02.20 확인)

▲ 목차로 돌아가기

ARC-AGI-2 77.1%의 진짜 의미

💡 공식 발표문과 벤치마크 설계 원리를 같이 놓고 보니 이런 차이가 보였습니다

ARC-AGI-2는 암기한 지식이 아닌, 완전히 새로운 패턴을 보고 규칙을 추론하는 능력을 측정합니다. 데이터셋 설계 자체가 “모델이 학습 데이터로 외워서 풀 수 없도록” 만들어졌습니다. 그래서 이 벤치마크의 점수가 올라갔다는 건, 단순히 더 많이 외웠다는 뜻이 아니라 추론 회로가 실제로 개선됐다는 뜻입니다. (출처: deepmind.google/models/model-cards/gemini-3-1-pro/, 2026.02.19)

Gemini 3.1 Pro는 이 테스트에서 77.1%를 기록했습니다. 직전 버전인 Gemini 3 Pro는 31.1%였습니다. 수치만 보면 약 2.48배입니다. 비교 대상인 Claude Opus 4.6(Thinking Max 기준)은 68.8%, GPT-5.2는 52.9%입니다. ARC-AGI-2 기준으로는 지금 출시된 주요 모델 중 명확한 1위입니다.

그런데 이 수치에 흥분하기 전에 한 가지 확인해야 합니다. DataCamp가 직접 테스트한 결과를 보면, 이 점수는 Thinking High/Max 모드에서 나온 수치입니다. 기본 모드(Low thinking level)에서는 차이가 크게 줄어듭니다. API에서 thinking_level=highmax로 설정해야 이 성능이 나옵니다. 기본값인 low로 쓰면 훨씬 낮은 성능이 나올 수 있습니다. (출처: DataCamp Gemini 3.1 Hands-On Review, 2026.02.19)

ARC-AGI-2 점수 비교 (Thinking High 기준, 2026.02 기준) — 출처: Google DeepMind 공식 모델카드
모델 ARC-AGI-2 비고
Gemini 3.1 Pro (High) 77.1% 1위
Claude Opus 4.6 (Max) 68.8% 2위
Claude Sonnet 4.6 (Max) 58.3% 3위
GPT-5.2 (xhigh) 52.9% 4위
Gemini 3 Pro (High) 31.1% 전 버전

▲ 목차로 돌아가기

추론 2배가 안 먹히는 세 가지 작업

💡 공식 모델카드의 벤치마크 전체를 늘어놓고 보면 Gemini가 지는 구간이 선명하게 보입니다

① 실제 코딩 파이프라인 — Claude Opus 4.6이 역전

SWE-Bench Verified는 실제 오픈소스 GitHub 이슈를 모델이 자동으로 해결하는 비율을 측정합니다. 실무 코딩과 가장 가깝게 설계된 벤치마크입니다. 여기서 Gemini 3.1 Pro는 80.6%를 기록했고, Claude Opus 4.6은 80.8%였습니다. (출처: deepmind.google/models/model-cards/gemini-3-1-pro/, 2026.02.19) 수치만 보면 거의 비슷해 보이지만, 100개 이슈 처리 기준으로 0.2개 더 해결하는 쪽이 Claude입니다. SWE-Bench Pro(다양한 실전 코딩 작업 포함)에서는 GPT-5.3-Codex가 56.8%로 앞서고, Gemini 3.1 Pro는 54.2%입니다. 이 격차는 장기 에이전틱 코딩 파이프라인에서는 체감됩니다.

② 지식 집약 업무 — Sonnet 4.6에게 큰 폭으로 밀림

GDPval-AA는 금융 모델링, 법률 리서치, 시장 분석처럼 경제적 가치를 창출하는 전문 업무에서의 정확도를 측정합니다. Gemini 3.1 Pro는 1317, Claude Sonnet 4.6은 1633입니다. (출처: deepmind.google/models/model-cards/gemini-3-1-pro/, 2026.02.19) 수치 차이가 316포인트입니다. 지식 업무에서는 Gemini 3.1 Pro가 사실상 두 단계 아래에 있습니다. 재무 분석, 법률 문서 검토, 연구 보고서 작성처럼 “깊은 지식을 좁게 파고드는” 작업에서는 이 격차가 실제로 체감됩니다.

③ 순수 수학 — DeepSeek R2가 더 싸고 더 정확

AIME 2025 기준으로 WhatLLM이 측정한 결과, Gemini 3.1 Pro Preview는 91.2%, DeepSeek R2는 93.8%를 기록했습니다. (출처: whatllm.org/blog/gemini-3-1-pro-preview, 2026.02.20) DeepSeek R2는 이미지·비디오를 못 처리하는 텍스트 전용 모델이지만, 순수 수학 추론만 놓고 보면 Gemini 3.1 Pro보다 정확하고, API 가격은 입력 기준 $0.55/1M 토큰으로 Gemini의 44% 수준입니다. 수학 집약 작업에 특화한다면 DeepSeek R2가 현실적입니다.

▲ 목차로 돌아가기

가격이 결정적인 이유 — 연 143만 달러 차이

성능 비교보다 실제로 더 중요한 수치가 가격입니다. 동급 최강이라는 Claude Opus 4.6과 비교하면 입력 기준 12배, 출력 기준 7.5배 차이가 납니다. 하루 1,000만 토큰 처리 파이프라인을 기준으로 계산하면 Gemini 3.1 Pro는 일 $56, Claude Opus 4.6은 일 $450입니다. (출처: WhatLLM.org, Vertex AI 가격 정책, 2026.02.20 확인)

📊 하루 1,000만 토큰(70% 입력 / 30% 출력) 기준 비용 계산

Gemini 3.1 Pro: (7M × $1.25) + (3M × $10) / 1,000 = $8.75 + $30 = 약 $56/일

Claude Opus 4.6: (7M × $15) + (3M × $75) / 1,000 = $105 + $225 = 약 $450/일

연간 차이: ($450 – $56) × 365 = 약 $143,810 절감

이 수치가 뜻하는 건, 성능이 완전히 동등하지 않아도 Gemini 3.1 Pro를 선택할 이유가 충분하다는 겁니다. 연간 $143,000 차이면 개발자 한 명 인건비입니다. 코딩 전용 파이프라인이 아니라면, 성능 차이 몇 퍼센트를 감수하더라도 가격이 결정적 변수가 됩니다.

모델별 API 가격 비교 (2026.02.20 기준) — 출처: Vertex AI, Anthropic, OpenAI 공식 가격 정책
모델 입력 $/1M 출력 $/1M 컨텍스트 10M 토큰/일
Gemini 3.1 Pro Preview $1.25 $10.00 1M ~$56
DeepSeek R2 (텍스트 전용) $0.55 $2.19 128K ~$14
GPT-5.2 $10.00 $30.00 1M ~$200
Claude Opus 4.6 $15.00 $75.00 200K ~$450

Claude Opus 4.6의 컨텍스트 윈도우가 200K인 반면 Gemini 3.1 Pro는 1M입니다. 긴 문서 처리(계약서 묶음, 대형 코드베이스 등)에서 Claude를 쓰면 청킹이나 다중 API 호출이 필요한데, Gemini는 한 번에 처리됩니다. 이 구조적 단순함만으로도 개발 비용이 줄어듭니다.

▲ 목차로 돌아가기

Preview 딱지가 의미하는 숨은 리스크

💡 출시 발표문에는 안 나오는데, 실제 사용 보고서에는 이 부분이 반복적으로 등장합니다

“Preview” 레이블은 마케팅 표현이 아닙니다. Google은 GA(General Availability) 전까지 프로덕션 SLA를 보장하지 않는다고 공식적으로 명시했습니다. 구체적으로 세 가지 리스크가 있습니다.

첫째, 가중치가 GA 전에 바뀔 수 있습니다. Google의 역대 프리뷰 주기는 6~12주였습니다. (출처: WhatLLM.org, 2026.02.20) 같은 gemini-3.1-pro-preview 엔드포인트를 쓰더라도 가중치가 조용히 업데이트될 수 있습니다. 재현 가능성이 중요한 테스트 환경이라면 날짜를 기록해둬야 합니다.

둘째, 복잡한 JSON 스키마에서 오류가 납니다. WhatLLM의 자체 테스트 결과, 복잡한 JSON 구조화 출력에서 200번 중 1번꼴로 스키마 오류가 발생했습니다. (출처: whatllm.org/blog/gemini-3-1-pro-preview, 2026.02.20) 개발 환경에서는 무시할 수 있는 수준이지만, 청구·컴플라이언스 시스템처럼 100% 정합성이 필요한 프로덕션에서는 치명적입니다.

셋째, GA 전환 시 가격이 바뀔 수 있습니다. Google은 Gemini 2.5 → 3 전환 시기에 가격을 조정한 이력이 있습니다. 현재 $1.25/$10은 프리뷰 가격입니다. GA 후 가격이 오를 경우, 프리뷰 기준으로 작성한 ROI 계산이 틀어질 수 있습니다. Google이 공식 답변을 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

결국 어떤 작업에 써야 하나요?

솔직히 말하면, “Gemini 3.1 Pro가 최고”라는 말도, “Claude가 더 낫다”는 말도 맥락 없이는 의미 없습니다. 공식 벤치마크를 기반으로 작업 유형별로 정리하면 이렇습니다.

✅ Gemini 3.1 Pro가 유리한 작업

  • 비디오 분석: VideoMME 87.2%로 Claude Opus 4.6(79.2%)보다 약 8%p 앞섭니다. 긴 영상 요약, 회의 분석, 교육 영상 처리에 현재 가장 강합니다.
  • 추상 추론·과학 분석: ARC-AGI-2 77.1%와 GPQA Diamond 94.3%로 복잡한 논리 추론과 대학원 수준 과학 질문에 강합니다.
  • 긴 문서 단일 처리: 1M 토큰 컨텍스트 덕분에 대형 계약서 묶음, 수백 파일짜리 코드베이스를 청킹 없이 처리합니다.
  • 비용 민감 대규모 파이프라인: Claude Opus 4.6 대비 입력 토큰 12배 저렴합니다. 하루 처리량이 클수록 이 차이가 결정적입니다.
  • 프론트엔드 코드 생성: WebDev Arena 1위를 유지 중입니다. React 컴포넌트, UI 프로토타이핑, SVG 애니메이션 생성에 강합니다.

❌ Gemini 3.1 Pro보다 다른 모델이 나은 작업

  • 자율 코딩 에이전트: SWE-Bench Verified에서 Claude Opus 4.6이 소폭 앞섭니다. 코딩만 하는 에이전트라면 Claude가 더 안정적입니다.
  • 금융·법률·연구 지식 업무: GDPval-AA에서 Sonnet 4.6(1633)이 Gemini 3.1 Pro(1317)를 크게 앞섭니다. 깊은 전문 지식이 필요한 작업에서는 격차가 납니다.
  • GUI 기반 컴퓨터 조작: Claude만 지원하는 기능이고, Gemini 쪽에는 해당 벤치마크가 아직 없습니다.
  • 순수 수학 전용 (예산 타이트할 때): DeepSeek R2가 AIME 기준 더 정확하고 가격도 절반 이하입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?
무료 플랜에서는 현재 Gemini 3 Flash가 기본입니다. 3.1 Pro는 Google AI Pro($19.99/월) 또는 Ultra($249.99/월) 구독자 대상으로 우선 제공됩니다. API 접근은 Google AI Studio에서 무료 테스트 쿼터 안에서 가능하고, 이후 유료로 전환됩니다. 무료 CLI 사용 시 하루 1,000 요청, 분당 60 요청까지 가능합니다. (출처: DataCamp, 2026.02.19)
Q2. ARC-AGI-2 점수가 높으면 실제 업무에서도 체감이 되나요?
여러 단계를 거치는 추론이 필요한 작업, 예를 들어 복잡한 시스템 설계나 다단계 데이터 분석에서는 체감됩니다. DataCamp가 직접 수행한 기호 시퀀스 퍼즐과 제약 조건 검사 테스트에서 모두 정확하게 작동했습니다. 단, 단순 QA나 요약처럼 암기 기반 작업에서는 이 차이가 잘 드러나지 않습니다.
Q3. thinking_level은 뭘 써야 하나요?
API에서 thinking_level 파라미터는 low, medium, high, max 네 단계입니다. 복잡한 추론이 필요하면 high 이상을 써야 합니다. 단순 요약이나 빠른 답변이 필요하면 low나 medium이 속도와 비용을 줄여줍니다. medium은 3.1 버전에서 새로 추가된 옵션입니다. (출처: DataCamp, 2026.02.19)
Q4. 프로덕션에 지금 붙여도 되나요?
Google이 프리뷰 버전에 대해 SLA를 공식적으로 보장하지 않는다고 밝혔습니다. 복잡한 JSON 스키마 출력에서 200번 중 1번꼴 오류가 관찰됐고, GA 전에 가중치가 조용히 바뀔 수 있습니다. 테스트·개발 환경에서는 지금 써볼 만합니다. 청구나 컴플라이언스처럼 정합성이 핵심인 프로덕션은 GA 후에 검토하는 게 안전합니다. (출처: WhatLLM.org, 2026.02.20)
Q5. NotebookLM에서도 3.1 Pro가 쓰이나요?
네. Google AI Pro 및 Ultra 구독자 대상으로 NotebookLM이 Gemini 3.1 Pro로 구동됩니다. NotebookLM은 업로드한 문서 안에서만 답변하도록 설계된 툴이라, 긴 문서 분석과 요약에서 1M 컨텍스트 윈도우의 효과가 직접적으로 나타납니다. (출처: blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/, 2026.02.19)

▲ 목차로 돌아가기

마치며

Gemini 3.1 Pro는 ARC-AGI-2 하나만 보면 의심할 여지 없이 현재 가장 강한 추론 모델입니다. 그런데 막상 업무 유형을 세분화하면 얘기가 달라집니다. 코딩에서는 Claude Opus 4.6에 지고, 지식 업무에서는 Claude Sonnet 4.6에 더 크게 집니다. 비디오 분석과 대규모 비용 절감, 긴 컨텍스트 처리가 필요한 곳에서는 지금 당장 써볼 가치가 있습니다.

Preview 상태인 만큼 무조건 프로덕션에 올리는 건 좀 더 지켜보는 게 맞습니다. GA 전환 시 가격이 어떻게 바뀌는지도 아직 이유가 공개되지 않은 부분입니다. 지금 단계에서는 자신의 작업 유형을 먼저 정의하고, 그 작업에서 Gemini 3.1 Pro가 이기는 구간인지를 확인한 뒤 판단하는 게 가장 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google DeepMind — Gemini 3.1 Pro Model Card (2026.02.19)
  2. Google 공식 블로그 한국어 — 제미나이 3.1 프로 출시 (2026.02.19)
  3. DataCamp — Gemini 3.1: Features, Benchmarks, Hands-On Tests (2026.02.19)
  4. WhatLLM.org — Gemini 3.1 Pro Preview: what the .1 actually means (2026.02.20)
  5. TechCrunch — Google’s new Gemini Pro model has record benchmark scores (2026.02.19)

본 포스팅은 2026년 2월 19일 기준 / Gemini 3.1 Pro Preview 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 벤치마크 수치는 각 공식 기술 보고서 기준이며, 실제 사용 환경에 따라 결과가 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기