2026.02.19 기준
gemini-3.1-pro-preview
IT/AI

Gemini 3.1 Pro 직접 써봤습니다 — 못하는 게 있습니다

ARC-AGI-2 77.1%로 추론 성능이 2배 넘게 올랐다고 합니다. 근데 막상 써보면, 모든 벤치마크에서 1등이 아닙니다. 공식 모델카드 숫자와 실사용 한계를 같이 놓고 보니 생각보다 복잡한 그림이 나왔습니다.

77.1%

ARC-AGI-2 (추론)

2배+

3 Pro 대비 추론 향상

토큰 컨텍스트 윈도우

추론 성능 2배, 진짜 어떤 의미인가요?

Gemini 3.1 Pro는 2026년 2월 19일 구글이 공식 출시한 모델로, Gemini 3 시리즈의 추론 능력을 한 단계 더 끌어올린 버전입니다. 공식 블로그에서 강조한 핵심 수치는 하나입니다. ARC-AGI-2 벤치마크 77.1%로, 이전 버전인 Gemini 3 Pro(31.1%)와 비교하면 수치상 2.4배 수준입니다. (출처: Google DeepMind Model Card, 2026.02.19)

💡 공식 발표문과 실제 벤치마크 표를 같이 보니 이런 차이가 보였습니다. ARC-AGI-2는 “완전히 새로운 논리 패턴을 해결하는 능력”을 측정합니다. 수능처럼 외운 내용이 아니라 처음 보는 패턴을 얼마나 유연하게 푸느냐를 평가하는 겁니다. 77.1%는 이 분야에서 현재 공개 모델 중 최고 수준입니다.

다시 말해 이 수치는 단순 암기·검색 성능이 아니라, 맥락 없이 주어진 문제를 스스로 풀어내는 추상 추론 능력에서의 도약을 뜻합니다. 실무에서 보면, “API 스펙 없이 시스템을 설계해 봐”처럼 정답이 하나가 아닌 복잡한 워크플로우 설계에서 차이가 납니다.

▲ 목차로 돌아가기

벤치마크별로 다른 1등 — 전 항목 최강이 아닙니다

공식 발표 직후 많은 글이 “Gemini 3.1 Pro, 모든 지표 압도”라고 정리했습니다. 그런데 공식 모델카드 벤치마크 표를 직접 보면 이야기가 달라집니다. (출처: Google DeepMind Gemini 3.1 Pro Model Card, 2026.02.19)

벤치마크	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2	1등
ARC-AGI-2 (추상 추론)	77.1%	68.8%	52.9%	🏆 Gemini
SWE-Bench Verified (코딩)	80.6%	80.8%	80.0%	🏆 Claude
GDPval-AA (전문가 대화)	1317	1606	1462	🏆 Claude
GPQA Diamond (과학 지식)	94.3%	91.3%	92.4%	🏆 Gemini
BrowseComp (에이전트 검색)	85.9%	84.0%	65.8%	🏆 Gemini

💡 벤치마크 번호가 아닌 용도를 기준으로 놓고 보니 결론이 달랐습니다. 코딩 실무(SWE-Bench Verified)에서는 Claude Opus 4.6이 80.8%로 Gemini 3.1 Pro(80.6%)를 앞섭니다. 전문가 수준의 대화 능력(GDPval-AA)에서도 Claude가 우위입니다. Gemini 3.1 Pro가 확실히 앞서는 구간은 추상 추론과 에이전트 검색입니다.

코딩 보조 도구로 Gemini 3.1 Pro를 고려하고 있다면, SWE-Bench 수치 차이(0.2%p)는 사실상 오차 범위입니다. 단, 에이전트 워크플로우나 복잡한 멀티스텝 검색이 주요 업무라면 Gemini 3.1 Pro가 실질적으로 유리합니다.

▲ 목차로 돌아가기

실사용에서 부딪힌 한계 3가지

ARC-AGI-2 77.1%는 인상적이지만, 실제로 Gemini CLI·Antigravity·oh-my-opencode 같은 에이전트 환경에서 써보면 다른 문제가 생깁니다.

한계 1

에이전트 모드에서 “계획만 반복”하는 문제

자율 코딩 에이전트로 돌리면 외부 도구를 제대로 쓰지 못하고, 행동 대신 계획을 계속 반복하는 패턴이 보입니다. 이 특성 때문에 Thinking 토큰이 실제 출력보다 많아져 비용이 급격히 올라갑니다. (출처: Reddit r/GeminiAI, 2026.02.21 — 다수 사용자 보고)

한계 2

긴 대화에서 맥락이 흐릿해지는 현상

컨텍스트 윈도우는 100만 토큰인데, 실제 장시간 프로젝트 대화에서 초반 논의가 후반에 무시되는 경우가 보고됩니다. 토큰 한도가 아니라 가중치 처리 방식의 문제로 보이며, 구글이 공식 이유를 밝히지 않은 부분입니다.

한계 3

바이브코딩 생성 코드의 보안 취약점

Gemini 3.1 Pro가 생성한 코드를 검증 없이 서버에 배포했다가 보안 키 유출 직전까지 간 실사용 사례가 보고됩니다. AI가 만든 코드는 기능적으로 동작하더라도 보안 로직이 빠져있는 경우가 있어, 실서버 배포 전 별도 검증이 필수입니다.

세 번째 한계는 Gemini 3.1 Pro만의 문제가 아니라 현세대 LLM 전체의 공통 이슈입니다. 그럼에도 빠른 코딩 생성 능력이 전면에 부각되면서 이 리스크가 제대로 전달되지 않고 있습니다.

▲ 목차로 돌아가기

가격이 비싸도 실제 비용이 낮아지는 구조

Gemini 3.1 Pro는 Gemini 3 Pro보다 API 단가가 높습니다. “더 비싼 모델 = 더 비싼 운영비”라고 생각하기 쉬운데, JetBrains의 AI 디렉터 Vladislav Tankov는 다른 이야기를 합니다. (출처: Google Cloud 공식 블로그, 2026.02.19)

“동일한 결과를 내는 데 필요한 출력 토큰 수가 줄어들었습니다. 이는 복잡한 작업에서 실제 비용을 낮추는 효과로 이어집니다.”

— Vladislav Tankov, Director of AI, JetBrains

단순 계산으로 보면, 토큰당 가격이 20% 올랐더라도 동일 작업에 필요한 토큰이 30% 줄어든다면 실제 청구 금액은 낮아집니다. 구체 수치는 작업 유형에 따라 다르며 이 부분에서 공식 가격 표만으로 결론을 내리면 오판입니다.

단, 이 효과는 추론이 복잡한 작업에서만 유효합니다. 단순 요약이나 짧은 질답처럼 모델 능력이 결과에 영향을 주지 않는 작업이라면, 저렴한 Gemini 3.1 Flash-Lite가 더 효율적입니다.

▲ 목차로 돌아가기

Deep Think 모드, 쓸수록 비용 주의해야 합니다

Gemini 3.1 Pro는 일반 모드와 별도로 Deep Think(High) 모드를 제공합니다. ARC-AGI-2 77.1%라는 수치도 Thinking High 모드 기준입니다. 중요한 건 이 모드에서 사이버 보안 관련 능력이 이전 버전보다 증가했다는 점입니다.

💡 Google DeepMind가 공식 FSF 보고서에서 밝힌 내용입니다. Gemini 3.1 Pro(Deep Think 없이)도 사이버 영역에서 “alert threshold”에 도달했습니다. 이는 Gemini 3 Pro도 마찬가지였는데, 구글은 CCL(Critical Capability Level)에는 미치지 않았다고 판단해 출시를 진행했습니다. (출처: Google DeepMind Frontier Safety Framework Report, 2026.02.19)

더 흥미로운 점은 Deep Think 모드가 사이버 위협 관점에서 오히려 일반 모드보다 낮은 수치를 보였다는 겁니다. 구글 설명에 따르면 추론 비용을 감안하면 Deep Think 모드가 실질적으로 더 낮은 위험을 갖는다고 하는데, 이 부분의 상세 이유는 공개되지 않았습니다.

실용적으로는 Deep Think 모드는 Thinking 토큰을 대량 소모합니다. 에이전트 루프에서 매 요청마다 Deep Think를 켜두면 비용이 급격히 늘어납니다. 실제 사용자들 사이에서 “계획 반복 문제”가 Deep Think 모드에서 특히 두드러진다는 보고가 많습니다.

▲ 목차로 돌아가기

Google AI Pro 구독자가 모르는 숨겨진 한도

Gemini 앱에서 Google AI Pro를 구독하면 Gemini 3.1 Pro를 쓸 수 있습니다. 그런데 개발자 도구인 Google Antigravity를 같이 쓸 경우, 실사용자들이 예상하지 못한 한도 벽에 부딪힙니다. (출처: jwhy-study.tistory.com, 2026.03.04 실사용 후기)

플랜	Gemini CLI 일일 한도	Antigravity 내 3.1 Pro	실제 체감
무료 (개인 계정)	1,000회/일	5회/일	오후에 막힘
Google AI Pro	1,500회/일	5회/일	오전에도 막힘
Google AI Ultra	2,000회/일	별도 확인 필요	—

💡 Gemini CLI 한도와 Antigravity 한도는 별개입니다. Antigravity에서 Gemini 3.1 Pro를 쓰는 Planning 모드는 Pro·Ultra 구독과 관계없이 하루 5회라는 별도 한도가 적용됩니다. 무거운 에이전트 작업을 하루 5번 하면 한도가 소진됩니다.

Gemini CLI는 OAuth 기반이라 구독 없이도 쓸 수 있지만, Antigravity는 Pro 이상 구독이 필요하고 별도 한도가 있습니다. 이 구분이 발표 자료에 명확히 나오지 않아 실제로 혼동하는 사용자가 많습니다.

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5개

Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?

Google AI Studio에서 gemini-3.1-pro-preview 모델을 무료로 테스트할 수 있습니다. 단, API 상업적 사용은 Vertex AI 유료 플랜이 필요하고, Gemini 앱에서 사용하려면 Google AI Pro(월 11,000원 기준) 이상 구독이 필요합니다. (출처: Google AI Studio, Vertex AI 공식 문서, 2026.02 기준)

Q2. ARC-AGI-2 77.1%가 실제로 어떤 의미인가요?

ARC-AGI-2는 훈련 데이터에 없는 완전히 새로운 논리 패턴 문제를 얼마나 푸는지를 측정합니다. 이전 Gemini 3 Pro는 같은 테스트에서 31.1%였습니다. 수치상 2.4배입니다. 실무에서 이 차이가 체감되는 영역은 정답이 정해지지 않은 복잡한 설계·분석 작업입니다. 반면 답이 정형화된 코딩 작업(SWE-Bench)에서는 Claude Opus 4.6이 미세하게 앞섭니다.

Q3. Gemini 3.1 Pro를 코딩 보조 도구로 써도 될까요?

SWE-Bench Verified 기준 80.6%로 Claude Opus 4.6(80.8%)과 거의 동급입니다. 단순 코드 생성보다는 복잡한 아키텍처 설계, 에이전트 기반 멀티스텝 코딩에 강합니다. 다만 에이전트 루프에서 계획 반복 문제가 발생할 수 있어, oh-my-opencode나 Gemini CLI를 쓸 경우 rate limit 설정과 context 관리를 별도로 준비하는 게 좋습니다.

Q4. 지식 컷오프가 언제인가요?

공식 Vertex AI 문서 기준으로 지식 컷오프는 2025년 1월입니다. 2025년 이후 사건이나 수치는 모델이 알지 못하거나 부정확할 수 있습니다. 최신 정보가 필요한 작업에는 Google 검색 그라운딩 기능을 함께 활성화하는 걸 권장합니다. (출처: Vertex AI 공식 문서, 2026.03.21 기준)

Q5. Deep Think 모드는 항상 켜두는 게 좋은가요?

단순한 작업에서는 Deep Think 모드가 오히려 불필요한 토큰을 소모합니다. Vertex AI API에서는 thinking_level을 MEDIUM 또는 끔으로 설정해 비용을 조절할 수 있습니다. 복잡한 추론이 필요한 작업에만 선택적으로 HIGH를 켜는 방식이 실용적입니다.

▲ 목차로 돌아가기

마치며 — 총평

Gemini 3.1 Pro는 추상 추론에서 확실히 세대가 달라졌습니다. ARC-AGI-2 77.1%는 수치 그 자체보다 “처음 보는 문제를 스스로 풀어내는 능력”이 실질적으로 올라갔다는 의미입니다. 에이전트 검색(BrowseComp 85.9%)이나 과학 지식(GPQA 94.3%)에서도 경쟁 모델을 앞섭니다.

그런데 솔직히 말하면, 코딩 실무에서는 Claude Opus 4.6과 사실상 동급이고, 전문가 대화 품질에서는 오히려 뒤집니다. Gemini 3.1 Pro가 압도적인 구간과 경쟁이 팽팽한 구간을 구분하지 않으면 도구 선택에서 손해를 봅니다.

Google AI Pro 구독만으로 Antigravity까지 완전히 쓰기 어렵고, 에이전트 루프에서 Thinking 비용이 예상보다 빠르게 소진되는 문제도 있습니다. 이 부분은 본격적으로 쓰기 전에 직접 확인하고 시작하는 게 낫습니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Pro는 현재 프리뷰 단계이며, 정식 출시 시 가격·한도·기능이 달라질 수 있습니다. 모든 수치는 2026년 2월 기준 공식 자료를 기반으로 하며, 이후 업데이트 내용은 공식 문서에서 확인하시기 바랍니다.

Gemini 3.1 Pro 직접 써봤습니다 — 못하는 게 있습니다

Gemini 3.1 Pro 직접 써봤습니다 — 못하는 게 있습니다

추론 성능 2배, 진짜 어떤 의미인가요?

벤치마크별로 다른 1등 — 전 항목 최강이 아닙니다

실사용에서 부딪힌 한계 3가지

가격이 비싸도 실제 비용이 낮아지는 구조

Deep Think 모드, 쓸수록 비용 주의해야 합니다

Google AI Pro 구독자가 모르는 숨겨진 한도

Q&A — 자주 나오는 질문 5개

마치며 — 총평

📌 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Pro 직접 써봤습니다 — 못하는 게 있습니다

Gemini 3.1 Pro 직접 써봤습니다 — 못하는 게 있습니다

추론 성능 2배, 진짜 어떤 의미인가요?

벤치마크별로 다른 1등 — 전 항목 최강이 아닙니다

실사용에서 부딪힌 한계 3가지

가격이 비싸도 실제 비용이 낮아지는 구조

Deep Think 모드, 쓸수록 비용 주의해야 합니다

Google AI Pro 구독자가 모르는 숨겨진 한도

Q&A — 자주 나오는 질문 5개

마치며 — 총평

📌 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기