Gemini 3.1 Pro, ARC-AGI-2 77.1% 직접 확인했습니다

Published on

in

Gemini 3.1 Pro, ARC-AGI-2 77.1% 직접 확인했습니다

2026.02.19 출시 기준
Preview
TECH

Gemini 3.1 Pro, ARC-AGI-2 77.1%
직접 확인했습니다

구글이 2026년 2월 19일 출시한 Gemini 3.1 Pro는 이전 모델 대비 추론 성능이 2배 이상 뛰었다고 합니다. 실제 공식 수치와 요금제별 한도, 그리고 Preview 상태에서 실제로 막히는 조건까지 공식 자료 기준으로 정리했습니다.

77.1%
ARC-AGI-2 (3.1 Pro)
31.1%
ARC-AGI-2 (3 Pro)
1M
컨텍스트 윈도우
Preview
현재 상태 (GA 아님)

Gemini 3.1 Pro가 이전 모델과 얼마나 다른가

Gemini 3.1 Pro는 2026년 2월 19일 구글이 공식 출시한 모델입니다. 출시 당일 Google DeepMind 모델 카드가 함께 공개됐는데, 거기 나온 수치가 꽤 놀라웠습니다. (출처: Google DeepMind Model Card, 2026.02.19)

이전 Gemini 3 Pro와 비교하면, 추론 성능 지표인 ARC-AGI-2에서 3 Pro가 31.1%였던 것이 3.1 Pro에서 77.1%로 올랐습니다. 단순 수치로 보면 약 2.5배 차이입니다. 보통 점수가 이렇게 뛰면 “같은 세대 모델이 맞나” 싶은 의심이 드는데, 공식 벤치마크 검증 기관인 ARC Prize에서 직접 확인한 수치라는 점이 중요합니다.

구글이 발표한 핵심은 “3 Deep Think의 추론 핵심을 일반 Pro에 이식했다”는 것입니다. 추론 모드 없이도 기본 지능 자체가 올라간 셈입니다. JetBrains AI 디렉터 Vladislav Tankov는 “이전 Gemini 3 Pro Preview 최고 성능 대비 최대 15% 향상을 확인했다”고 밝혔습니다. (출처: Google Cloud Blog, 2026.02.19)

💡 공식 발표문과 실제 기업 사용 평가를 같이 놓고 보니, 3 Pro → 3.1 Pro는 “점진적 업데이트”가 아닌 추론 능력의 실질적 세대 교체에 가깝습니다.

▲ 목차로 돌아가기

벤치마크 수치를 직접 확인한 결과

공식 모델 카드에 공개된 벤치마크를 직접 정리했습니다. 비교 대상은 경쟁 모델인 Claude Sonnet 4.6, Opus 4.6, GPT-5.2 Thinking 기준입니다. (출처: Google DeepMind Gemini 3.1 Pro Model Card, 2026.02.19)

벤치마크 3.1 Pro 3 Pro Opus 4.6 GPT-5.2
ARC-AGI-2 (추론) 77.1% 31.1% 68.8% 52.9%
GPQA Diamond (과학) 94.3% 91.9% 91.3% 92.4%
SWE-Bench Verified (코딩) 80.6% 76.2% 80.8% 80.0%
MMMLU (다국어) 92.6% 91.8% 91.1% 89.6%
BrowseComp (에이전트 검색) 85.9% 59.2% 84.0% 65.8%

※ 각 항목 최고 수치 굵게 표시. (출처: Google DeepMind Gemini 3.1 Pro Model Card, 2026.02.19)

코딩 벤치마크인 SWE-Bench Verified에서는 Claude Opus 4.6이 80.8%로 근소하게 앞서는 반면, ARC-AGI-2 추론에서는 3.1 Pro가 77.1%로 Opus 4.6(68.8%)을 8.3%p 앞섭니다. 코딩은 엇비슷하지만 새로운 문제를 푸는 추론 능력에서 격차가 납니다.

다국어 성능(MMMLU 92.6%)에서도 경쟁 모델 중 가장 높습니다. 한국어 포함 다국어 추론이 중요한 작업이라면 실질적으로 체감할 수 있는 수치입니다.

▲ 목차로 돌아가기

요금제별 실제 한도 — 아는 것과 다른 부분

구글 공식 고객센터에 나온 요금제별 Gemini 3.1 Pro 한도를 정리했습니다. 많은 분들이 “AI Pro 구독하면 Gemini 3.1 Pro 무제한”으로 알고 있는데, 실제로는 하루 한도가 명확히 정해져 있습니다. (출처: Google Gemini 앱 한도 고객센터, 2026.03 기준)

기능 무료 AI Plus AI Pro AI Ultra
3.1 Pro (일일 프롬프트) 기본 액세스 30개 100개 500개
컨텍스트 윈도우 32,000토큰 128,000토큰 1,000,000토큰 1,000,000토큰
Deep Think 3.1 불가 불가 불가 하루 10개
Deep Research (일일) 월 5개 12개/일 20개/일 120개/일
Agent 기능 불가 불가 불가 일 200개 요청

※ 한도는 사전 고지 없이 변경될 수 있음. (출처: Google Gemini 앱 한도 고객센터)

AI Pro 기준 하루 100개 한도인데, 실제로 긴 문서 처리나 코딩 작업을 반복하면 오전에 소진되는 경우가 생깁니다. 프롬프트 하나가 여러 토큰을 소비하면 숫자보다 빨리 줄어드는 구조입니다.

컨텍스트 윈도우 1M 토큰이 화제가 됐는데, 이게 Pro와 Ultra에서만 열립니다. 무료 사용자는 32,000토큰 제한이라 긴 문서 업로드가 사실상 불가합니다. AI Plus도 128,000토큰으로 제한됩니다. 홍보 문구에서 강조된 “1M 컨텍스트”가 모든 사용자에게 해당하는 것이 아닙니다.

▲ 목차로 돌아가기

Preview 상태에서 막히는 조건들

Gemini 3.1 Pro는 현재(2026년 3월 기준) GA(일반 출시)가 아닌 Preview 상태입니다. 구글 공식 블로그에 “GA 전환 전 검증을 위해 Preview로 배포한다”고 명시돼 있습니다. (출처: Google Blog, 2026.02.19)

이 Preview 상태에서 실제로 발생하는 문제들이 Google 공식 개발자 포럼과 지원 스레드에 다수 보고됐습니다. 가장 많이 보고된 것은 Antigravity(구글 에이전트 개발 플랫폼)에서의 접근 잠김 현상입니다. 실제 사례를 보면, AI Pro 구독자가 3월 9일 업데이트 이후 잠김 메시지를 받았고 3월 18일 초기화 예고가 왔지만, 3월 20일에 확인했더니 여전히 잠겨 있었습니다. 초기화 날짜가 다시 7일 뒤로 밀리는 현상이 반복됐습니다. (출처: Google AI 개발자 포럼, 2026.03.20)

⚠️ Antigravity에서 3.1 Pro를 쓸 때 주의할 점: 다른 모델(3 Flash 등)을 Antigravity에서 사용한 경우에도 3.1 Pro 한도와 연동돼 잠길 수 있다는 보고가 있습니다. Google이 공식 답변을 내놓지 않은 부분입니다.

Gemini CLI에서도 비슷한 현상이 보고됐습니다. 출시 직후 gemini-3-pro-preview 모델 ID가 3.1 출시와 함께 접근 불가 상태가 됐고, 개발자들이 강제로 마이그레이션해야 했습니다. 구글은 3월 9일 gemini-3-pro-preview를 공식 종료하고 gemini-3.1-pro-preview로 전환했습니다. (출처: Google AI for Developers 공식 문서, 2026.02.26)

▲ 목차로 돌아가기

Deep Think 3.1, Ultra 전용이라는 뜻

구글이 “3.1 Pro = Deep Think의 핵심 지능을 이식했다”고 발표했기 때문에, 많은 분들이 3.1 Pro를 쓰면 Deep Think 모드도 자동으로 사용 가능하다고 생각합니다. 그런데 공식 한도표를 보면 이 둘은 다릅니다.

Deep Think 3.1 자체는 하루 10개, AI Ultra 전용입니다. AI Pro에서는 Deep Think 3.1 모드가 없습니다. “3 Deep Think를 구동하는 핵심 지능을 3.1 Pro에 이식했다”는 발표 문구가 “3.1 Pro에서 Deep Think 모드를 쓸 수 있다”는 뜻과 다릅니다. 기반 지능이 올라간 것이지, Deep Think 추론 반복 루프를 무제한으로 쓸 수 있는 건 아닙니다.

💡 구글 공식 발표문의 “핵심 지능 이식”과 “Deep Think 모드 사용 가능”은 다른 개념입니다. 이 차이를 놓치면 요금제를 잘못 선택하게 됩니다.

또한 Deep Think 3.1의 컨텍스트 윈도우는 192,000토큰으로 제한됩니다. Ultra 전용이지만 일반 3.1 Pro의 1M 토큰 컨텍스트보다 오히려 적습니다. 추론을 깊이 하는 대신 처리 가능한 문맥 범위가 줄어드는 구조입니다. 이 역시 공식 한도표에 명시된 내용입니다. (출처: Google Gemini 앱 한도 고객센터, 2026.03)

▲ 목차로 돌아가기

공식 발표와 실제 사용 흐름 사이의 간극

구글의 공식 발표와 실제 출시 흐름을 교차해서 보면 주목할 만한 패턴이 보입니다.

첫째, 응답 속도 문제입니다. 출시 직후 타임아웃 가이드 페이지가 공개됐는데, 거기서 “Gemini 3.1 Pro의 첫 토큰 출력까지 21~31초 지연은 정상 범위”라고 안내합니다. (출처: aifreeapi.com Fix Gemini 3.1 Pro Timeout Errors, 2026.02.25) 이 수치 자체가 충격적입니다. GPT 계열이나 Claude 계열과 비교하면 첫 응답까지의 대기 시간이 길다는 뜻입니다. 출력이 시작되면 빠르지만, 작업을 자주 전환하는 에이전트 워크플로에서는 이 초기 지연이 쌓입니다.

둘째, “Show Thinking” 기능이 소리 없이 사라졌습니다. 2026년 3월 초 Reddit과 GeminiAI 커뮤니티에서 “3.1 Pro에서 사고 과정이 보이지 않는다”는 보고가 이어졌고, 실제로 기본 3.1 Pro에서는 사고 과정 표시가 제거됐습니다. Google이 공식 이유를 밝히지 않았습니다.

💡 벤치마크는 분명 뛰어난데, Preview 상태·첫 토큰 지연·Show Thinking 제거가 동시에 진행됐습니다. 숫자만 보고 에이전트 파이프라인에 바로 투입하면 예상과 다른 결과를 만날 수 있습니다.

Databricks 테스트에서는 “Gemini 3.1 Pro가 OfficeQA 벤치마크(기업용 표·비정형 데이터 통합 추론)에서 최고 성능을 달성했다”고 밝혔습니다. (출처: Google Cloud Blog, 2026.02.19) 다만 이 결과는 Databricks와 구글이 협력해 진행한 평가라는 점에서 완전히 독립적인 검증이라고 보기는 어렵습니다. 독립 기관의 추가 검증이 나오기 전까지는 구글 생태계 안에서의 성능으로 해석하는 편이 합리적입니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini 3.1 Pro는 지금 바로 쓸 수 있나요?
AI Studio에서 API 키로 gemini-3.1-pro-preview 모델 ID를 사용하면 지금 바로 접근 가능합니다. Gemini 앱에서는 AI Plus 이상 구독자에게 순차 롤아웃 중이며, AI Pro·Ultra 사용자는 이미 접근 가능합니다. 단, 공식 GA(정식 출시)는 아직 이뤄지지 않았습니다. (출처: Google Blog, 2026.02.19)
Q2. AI Pro 구독이면 Gemini 3.1 Pro를 무제한으로 쓸 수 있나요?
무제한이 아닙니다. AI Pro 기준 하루 100개 프롬프트 한도가 있습니다. 긴 문서를 반복 처리하거나 복잡한 추론을 자주 요청하면 생각보다 빨리 소진됩니다. 한도가 소진되면 하루가 지나야 초기화됩니다. (출처: Google Gemini 앱 한도 고객센터, 2026.03)
Q3. 컨텍스트 윈도우 1M 토큰은 누가 쓸 수 있나요?
AI Pro와 AI Ultra 구독자만 1M 토큰 컨텍스트 윈도우를 사용할 수 있습니다. 무료 사용자는 32,000토큰, AI Plus는 128,000토큰으로 제한됩니다. 무료로 1M 컨텍스트를 쓰려면 API를 통한 개발자 접근이 필요합니다. (출처: Google Gemini 앱 한도 고객센터, 2026.03)
Q4. Deep Think 3.1 모드는 어떤 요금제에서 쓸 수 있나요?
AI Ultra 전용입니다. 하루 10개 프롬프트 한도가 있으며, 컨텍스트 윈도우는 192,000토큰으로 제한됩니다. AI Pro 요금제에서는 Deep Think 3.1 모드 자체가 제공되지 않습니다. (출처: Google Gemini 앱 한도 고객센터, 2026.03)
Q5. Antigravity에서 3.1 Pro를 쓰다 잠기면 어떻게 해야 하나요?
Google AI 개발자 포럼에 보고된 사례에 따르면, 잠금 초기화 날짜가 예고 없이 7일씩 연장되는 현상이 확인됐습니다. 현재 구글이 공식 해결 방법을 발표하지 않았습니다. 당장 작업이 필요하다면 AI Studio에서 API 방식으로 전환하거나, Gemini CLI를 통해 접근하는 방법이 현실적인 우회책입니다. (출처: Google AI 개발자 포럼, 2026.03.20)

▲ 목차로 돌아가기

마치며 — 벤치마크는 진짜, 제약도 진짜입니다

Gemini 3.1 Pro의 ARC-AGI-2 77.1%는 허수가 아닙니다. ARC Prize에서 직접 검증한 수치고, 이전 3 Pro(31.1%) 대비 추론 능력이 정말 올라간 것은 맞습니다. 에이전트 검색(BrowseComp 85.9%), 다국어 추론(MMMLU 92.6%), 과학 지식(GPQA 94.3%)도 경쟁 모델을 전반적으로 앞섭니다.

다만 Preview 상태라는 점, 첫 토큰 출력 지연이 공식 가이드에서도 21~31초로 명시된다는 점, Antigravity에서의 잠김 현상이 실제로 다수 보고된다는 점은 숫자 뒤에 있는 현실입니다.

솔직히 말하면, 벤치마크만 보고 바로 에이전트 파이프라인에 투입하기보다는, AI Studio에서 먼저 주요 작업에 테스트해보고 레이턴시와 한도가 내 작업 패턴에 맞는지 확인하는 게 순서에 맞습니다. GA 전환 이후 안정성이 더 높아질 것으로 보이고, 그 시점이 이 모델의 진짜 평가 시작점이 될 것 같습니다.

본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Pro 공식 출시 발표 (blog.google)
  2. Google DeepMind — Gemini 3.1 Pro Model Card (deepmind.google)
  3. Google Cloud Blog — Vertex AI 및 Gemini Enterprise 3.1 Pro 도입 안내 (cloud.google.com)
  4. Google Gemini 앱 한도 및 업그레이드 고객센터 (support.google.com)
  5. Google AI 개발자 포럼 — Antigravity 접근 잠김 이슈 스레드 (discuss.ai.google.dev)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 한도는 2026년 3월 25일 기준이며, Google의 업데이트에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기