Gemini 3.1 Pro 직접 써봤습니다 — 벤치마크 1위가 전부가 아닌 이유

2026.02.19 출시
Gemini 3.1 Pro Preview 기준
2026.03.29 기준

구글이 Gemini 3.1 Pro를 출시하면서 ARC-AGI-2 벤치마크에서 77.1%를 기록했습니다. Claude Opus 4.6(68.8%)과 GPT-5.2(52.9%)를 모두 앞지른 수치입니다. 그런데 막상 에이전트 루프에서 써보면 얘기가 달라집니다. 가격, 성능, 실사용 한계까지 공식 자료를 직접 파헤쳤습니다.

77.1%

ARC-AGI-2

컨텍스트 토큰

$2/$12

입력/출력 per 1M

2.5배

전작 대비 추론 향상

Gemini 3.1 Pro, 뭐가 달라졌나요?

2026년 2월 19일, 구글은 Gemini 3.1 Pro를 공식 출시했습니다. Gemini 3 Pro를 기반으로 핵심 추론 능력을 강화한 버전으로, 구글 AI 스튜디오·Gemini CLI·Vertex AI에 동시 배포됐습니다. (출처: Google 공식 블로그, 2026.02.19)

입력 지원 포맷은 텍스트, 이미지, 오디오, 동영상, 코드 저장소 전체까지 포함하는 완전한 멀티모달이며, 컨텍스트 윈도우는 최대 100만 토큰(1M), 최대 출력은 64K 토큰입니다. (출처: Google DeepMind 모델카드, 2026.02.19)

구글의 설명에 따르면 3.1 Pro는 “복잡한 API 데이터와 사용자 친화적 디자인을 매끄럽게 연결”하는 복잡한 시스템 합성과, 텍스트 프롬프트만으로 실제 웹사이트에 바로 올릴 수 있는 SVG 애니메이션 생성 같은 실무 작업에 초점을 맞췄습니다. 단편적인 질답을 넘어 워크플로우 자체를 설계하는 능력이 핵심입니다.

💡 공식 발표문과 실제 배포 흐름을 같이 놓고 보니, 3.1 Pro는 “더 똑똑해진 모델”이 아니라 기존 3 Pro의 추론 엔진을 통째로 교체한 버전에 가깝습니다. 아키텍처 자체는 Gemini 3 Pro를 그대로 쓰면서도 벤치마크가 이렇게 뛰었다는 점은 추론 파이프라인의 개선에서 나온 결과입니다.

▲ 목차로 돌아가기

ARC-AGI-2 77.1% — 이 숫자가 의미하는 것

솔직히 말하면, ARC-AGI-2 점수를 처음 봤을 때 의심부터 했습니다. 그런데 ARC Prize 공식 리더보드를 직접 확인해보니 수치는 사실입니다. Gemini 3.1 Pro Preview는 검증된 점수 77.1%를 기록했고, 과제당 비용(Cost/Task)은 $0.962입니다. (출처: ARC Prize 공식 리더보드, 2026.03 기준)

여기서 중요한 게 있습니다. 전작인 Gemini 3 Pro는 같은 테스트에서 31.1%였습니다. 77.1% ÷ 31.1% = 약 2.5배 향상입니다. 구글 공식 블로그가 “두 배 이상 향상”이라고 표현한 것보다 실제로 더 높은 수치입니다. 그리고 이 테스트는 ARC Prize 측이 직접 설명하듯 “완전히 새로운 논리 패턴을 해결하는 능력”을 측정합니다. 암기나 패턴 재활용이 통하지 않도록 설계된 벤치마크입니다. 즉, 기억한 내용이 아니라 현장에서 추론하는 능력 자체를 재는 테스트입니다.

모델	ARC-AGI-2	GPQA Diamond	SWE-Bench Verified
Gemini 3.1 Pro	77.1%	94.3%	80.6%
Claude Opus 4.6	68.8%	91.3%	80.8%
GPT-5.2	52.9%	92.4%	80.0%
Gemini 3 Pro (전작)	31.1%	91.9%	76.2%

※ 출처: Google DeepMind 모델카드, 2026.02 기준 / Thinking(High) 모드 기준

눈에 띄는 건 SWE-Bench Verified입니다. 실제 코딩 작업 벤치마크에서 Gemini 3.1 Pro(80.6%)와 Claude Opus 4.6(80.8%)은 0.2%p 차이로 사실상 동점입니다. ARC-AGI-2에서의 격차가 SWE-Bench에서는 사라집니다. 추론 능력이 우월하다고 해서 코딩 결과물이 훨씬 낫다는 뜻은 아닙니다.

▲ 목차로 돌아가기

가격은 그대로인데 성능은 올랐다는 게 진짜인지 확인했습니다

API 공식 가격표를 직접 뒤져봤습니다

구분	200K 토큰 이하	200K 토큰 초과
입력 (per 1M 토큰)	$2.00	$4.00
출력 (thinking 토큰 포함)	$12.00	$18.00
컨텍스트 캐싱	$0.20	$0.40
배치 API (50% 할인)	입력 $1.00 / 출력 $6.00	입력 $2.00 / 출력 $9.00

※ 무료 티어 없음 (프리뷰 모델). 출처: ai.google.dev/gemini-api/docs/pricing

💡 가격표와 발표 흐름을 교차해서 보니, 구글은 Gemini 3 Pro와 동일한 요금을 유지했습니다. 성능이 오른 만큼 동일한 결과를 얻는 데 필요한 호출 횟수가 줄어든다는 뜻이고 — 실질 비용은 하락한 셈입니다.

계산해보면 차이가 이렇습니다

ARC-AGI-2 리더보드의 공식 수치 기준으로, Gemini 3.1 Pro의 과제당 비용은 $0.962입니다. 같은 리더보드에서 GPT-5.2의 과제당 비용은 공개되지 않았지만, 복잡한 추론 과제에서 GPT-5 계열의 API 단가가 Gemini 3.1 Pro보다 높다는 점을 감안하면, 동일한 ARC-AGI-2 문제를 Gemini 3.1 Pro로 풀면 비용이 낮은 편에 속합니다. 성능 대비 가격 효율이 높다는 의미입니다.

단, 컨텍스트가 200K 토큰을 넘어가면 입력 가격이 $2 → $4로 두 배 오릅니다. 1M 토큰 컨텍스트가 장점이라고 하지만, 실제로 200K 초과 구간에서 쓰면 비용 구조가 급격히 달라집니다.

▲ 목차로 돌아가기

에이전트 루프에서 만난 뜻밖의 한계

ARC-AGI-2에서 잘한다고 에이전트도 잘하는 건 아닙니다

Reddit r/GeminiAI 커뮤니티에 올라온 실사용 보고에는 이런 내용이 반복됩니다. “자율 코딩 에이전트로 쓰면 외부 도구를 제대로 연결하는 데 어려움을 겪고, 행동을 취하는 대신 계획만 계속 반복하는 루프에 빠진다”는 평가입니다. (2026년 2월 21일 게시물 기준) 이건 ARC-AGI-2 벤치마크와는 완전히 다른 역량 영역입니다.

Google DeepMind 모델카드도 이 점을 간접적으로 시인합니다. 모델카드에서 에이전틱 코딩 벤치마크인 Terminal-Bench 2.0에서 Gemini 3.1 Pro는 68.5%를 기록했는데, 반면 MCP Atlas(멀티스텝 워크플로우 테스트)에서는 69.2%로 경쟁사보다 앞섰습니다. 에이전트 성능이 아예 나쁜 건 아니지만, 도구 사용의 신뢰성이 단일 추론 성능만큼 높지는 않습니다.

⚠️ 이 조건에서는 주의가 필요합니다
외부 API 호출이 많은 복잡한 에이전트 파이프라인, 도구 체이닝이 3단계 이상인 워크플로우에서는 실제 프로덕션 적용 전 충분한 검증이 필요합니다. 구글도 공식 블로그에서 “에이전트 워크플로우 성능을 지속적으로 향상시킬 것”이라고 밝혔습니다 — 즉, 아직 개선 중이라는 의미입니다.

Gemini 3 Pro 대비 실사용에서 체감 차이가 있는 영역

r/google_antigravity의 Day 1 리뷰에서는 “Gemini 3 Pro는 벤치마크 외에는 정말 끔찍했는데, 3.1 Pro는 체감상 완전히 다른 모델”이라는 평이 나왔습니다. 특히 긴 코드베이스를 다루는 작업, 복잡한 멀티모달 분석에서 3 Pro의 한계를 넘었다는 평가가 많습니다. 이 점에서는 3.1 Pro로의 전환이 의미 있습니다.

프런티어 안전성 평가(Frontier Safety Framework)에서 사이버 도메인이 경고 임계값(alert threshold)에 도달했다는 점도 공식 모델카드에 명시됐습니다. CCL(임계 능력 수준)에는 미치지 않았지만, 사이버 관련 능력이 Gemini 3 Pro보다 높아졌다는 뜻입니다. 구글은 해당 영역에 대한 완화 조치(mitigation)를 계속 적용 중이라고 밝혔습니다. (출처: Google DeepMind 모델카드, Frontier Safety 섹션)

▲ 목차로 돌아가기

다른 모델과 나란히 놓고 보니 보이는 것들

벤치마크 점수만 보면 Gemini 3.1 Pro가 2026년 상반기 최강처럼 보입니다. 그런데 공식 수치와 실제 사용 흐름을 같이 놓고 보면 다른 그림이 나옵니다.

GDPval-AA에서 Claude가 역전하는 이유

모델카드의 GDPval-AA 결과를 보면, Gemini 3.1 Pro는 Elo 1,317인 반면 Claude Sonnet 4.6은 1,633으로 앞섭니다. GDPval-AA는 실제 전문가 작업 수준의 복잡한 과제를 평가하는 테스트입니다. 추상적 추론이 아니라 실무형 작업에서의 체감 품질을 재는 셈입니다. ARC-AGI-2에서 8.3%p 앞섰던 격차가 이 테스트에서는 완전히 뒤집힙니다.

이건 단순히 “어떤 모델이 더 좋다”의 문제가 아닙니다. 어떤 종류의 작업을 하느냐에 따라 우세한 모델이 달라진다는 뜻입니다. 새로운 논리 패턴 추론이 중심인 업무라면 Gemini 3.1 Pro가 유리하고, 전문가 수준의 복잡한 실무 작업이라면 Claude 계열이 앞섭니다.

1M 토큰 컨텍스트 — 실제로 쓸 수 있는 조건이 있습니다

1M 토큰 컨텍스트는 한국어 기준으로 약 50~70만 단어에 해당합니다. 장편 소설 두 편 분량 이상입니다. 그런데 200K 토큰을 넘기는 순간 입력 단가가 $2에서 $4로 두 배 오릅니다. 실제로 1M 컨텍스트를 활용하려면 API 비용이 상당히 커집니다. ARC Prize 리더보드의 공식 수치(Cost/Task $0.962)는 200K 이하 구간 기준이므로, 긴 문서 처리 등에서 비용이 더 올라갈 수 있습니다.

💡 공식 발표와 실제 가격표를 같이 확인하니 이런 차이가 보였습니다. 1M 토큰은 확실히 강점이지만 200K 초과 구간부터 비용 구조가 바뀌기 때문에, 긴 컨텍스트가 필요한 작업에서는 컨텍스트 캐싱($0.20/1M 토큰)을 적극 활용해야 실질 비용을 줄일 수 있습니다.

▲ 목차로 돌아가기

어떤 용도라면 쓸 만하고, 어떤 경우엔 주저해야 할까요

이 조건이면 확실히 유리합니다

공식 벤치마크와 실사용 후기를 교차해봤을 때, Gemini 3.1 Pro가 실제로 경쟁 우위를 가지는 시나리오는 다음과 같습니다:

완전히 새로운 논리 문제 해결 — ARC-AGI-2 77.1%가 의미하는 바가 이것입니다. 반복 패턴이 아닌 처음 보는 구조의 문제
과학·STEM 분야 추론 — GPQA Diamond 94.3%로 경쟁 모델 중 최고
코드 기반 웹 UI/SVG 애니메이션 생성 — 구글이 공식 데모에서 직접 보여준 강점 영역
멀티스텝 MCP 워크플로우 — MCP Atlas에서 69.2%로 경쟁사 대비 앞섬
배치 처리 — 배치 API를 쓰면 입력 $1.00/출력 $6.00(200K 이하)로 50% 비용 절감

이 상황에서는 대안을 먼저 검토하는 게 낫습니다

전문가 수준 실무 작업 — GDPval-AA에서 Claude가 316 Elo 앞섬. 체감 품질 차이가 있습니다
복잡한 에이전트 파이프라인 — 외부 도구 연동 신뢰성이 아직 불안정하다는 실사용 보고 존재
200K 토큰 초과 구간에서 빈번한 API 호출 — 입력 단가 두 배, 출력 단가 50% 추가 부담
자연스러운 산문·창작 글쓰기 — 이 영역은 Claude 계열이 체감상 앞서는 편이라는 평가가 많음

기대했던 것과 달랐던 부분이 있다면 바로 이 지점입니다. 벤치마크에서의 우위가 모든 작업에 일괄 적용되지 않습니다. Gemini 3.1 Pro는 특정 유형의 추론에서 현재 최고 수준이지만, “모든 용도에서 최선”이라고 단정하기엔 아직 이릅니다.

▲ 목차로 돌아가기

Q&A

▶ Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?

API 무료 티어에서는 지원되지 않습니다. Google AI Studio에서 프리뷰 버전을 제한적으로 테스트할 수 있지만, 유료 API 키 없이는 프로덕션 수준으로 사용할 수 없습니다. 일반 이용자라면 Gemini 앱의 AI Pro 또는 AI Ultra 요금제를 통해 접근 가능합니다.

▶ Q2. Gemini 3.1 Pro와 Gemini 3 Pro의 실질적인 차이가 뭔가요?

아키텍처는 동일하지만 추론 파이프라인이 대폭 개선됐습니다. ARC-AGI-2 기준으로 31.1% → 77.1%로 약 2.5배 향상됐고, SWE-Bench Verified도 76.2% → 80.6%로 올랐습니다. 실사용에서 체감 차이가 가장 크게 나타나는 영역은 복잡한 논리 추론과 긴 코드베이스 분석입니다.

▶ Q3. API 가격이 Gemini 3 Pro와 동일한가요?

네, 공식 가격 페이지 기준으로 200K 토큰 이하에서 입력 $2.00/출력 $12.00으로 전작과 동일합니다. 단, 200K 토큰 초과 시 입력 $4.00/출력 $18.00으로 올라갑니다. 1M 토큰 컨텍스트를 쓰려면 비용 계획을 꼼꼼히 따져야 합니다.

▶ Q4. Claude Opus 4.6이나 GPT-5.2 대신 Gemini 3.1 Pro를 써야 할 이유가 있나요?

과학·수학·STEM 분야의 추론 집중 작업이라면 충분한 이유가 됩니다. GPQA Diamond 94.3%는 경쟁 모델 중 최고 수치입니다. 그리고 배치 API를 활용한 대용량 처리라면 비용 효율도 좋습니다. 반면 전문가 수준의 광범위한 실무 작업이나 창작 글쓰기에서는 Claude가 체감상 앞선다는 평가가 많습니다.

▶ Q5. 한국어 성능은 어떤가요?

MMMLU(다국어 Q&A) 벤치마크에서 Gemini 3.1 Pro는 92.6%로 Claude Opus 4.6(91.1%)과 GPT-5.2(89.6%)를 앞섰습니다. 나무위키에 따르면 2026년 2월 국내 매체가 진행한 수능 테스트에서 국어, 수학, 영어, 한국사 포함 전 과목에서 AI 최초로 만점을 기록했다는 보고도 있습니다. 단, 이 수치는 공식 공인된 평가가 아니므로 참고 수준으로 보는 게 적절합니다.

▲ 목차로 돌아가기

마치며

이 부분이 좀 아쉬웠습니다. 에이전트 루프의 도구 연동 신뢰성이 벤치마크 점수와 같은 수준을 보여주지 못하고, GDPval-AA처럼 실무 체감 품질을 재는 테스트에서는 Claude에 크게 밀립니다. 벤치마크 왕이 실용 왕과 일치하지 않는다는 걸 이번에 다시 확인했습니다.

결론부터 말씀드리면, STEM 추론과 과학적 문제 해결 중심 작업이라면 현재 선택지 중 가장 경쟁력 있는 모델입니다. 에이전트 파이프라인이 핵심이거나 광범위한 실무 글쓰기가 주된 용도라면, 구글이 에이전트 성능을 더 개선한 이후를 기다려보는 게 현실적입니다.

📎 본 포스팅 참고 자료

Google 공식 블로그 — 제미나이 3.1 프로 출시 발표 (2026.02.19) blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/
Google DeepMind — Gemini 3.1 Pro 모델카드 (2026.02.19) deepmind.google/models/model-cards/gemini-3-1-pro/
Google AI for Developers — Gemini API 공식 가격 페이지 (2026.03.29 기준) ai.google.dev/gemini-api/docs/pricing
ARC Prize — 공식 리더보드 (2026.03 기준) arcprize.org/leaderboard

※ 본 포스팅은 2026년 3월 29일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 가격, 벤치마크 수치, 모델 스펙은 구글 공식 발표에 따라 달라질 수 있으므로 최신 공식 문서를 반드시 확인하시기 바랍니다.

Gemini 3.1 Pro, 뭐가 달라졌나요?

ARC-AGI-2 77.1% — 이 숫자가 의미하는 것