gemini-3.1-pro-preview
IT/AI
Gemini 3.1 Pro 직접 써봤습니다 — 못하는 게 있습니다
ARC-AGI-2 77.1%로 추론 성능이 2배 넘게 올랐다고 합니다. 근데 막상 써보면, 모든 벤치마크에서 1등이 아닙니다. 공식 모델카드 숫자와 실사용 한계를 같이 놓고 보니 생각보다 복잡한 그림이 나왔습니다.
추론 성능 2배, 진짜 어떤 의미인가요?
Gemini 3.1 Pro는 2026년 2월 19일 구글이 공식 출시한 모델로, Gemini 3 시리즈의 추론 능력을 한 단계 더 끌어올린 버전입니다. 공식 블로그에서 강조한 핵심 수치는 하나입니다. ARC-AGI-2 벤치마크 77.1%로, 이전 버전인 Gemini 3 Pro(31.1%)와 비교하면 수치상 2.4배 수준입니다. (출처: Google DeepMind Model Card, 2026.02.19)
💡 공식 발표문과 실제 벤치마크 표를 같이 보니 이런 차이가 보였습니다. ARC-AGI-2는 “완전히 새로운 논리 패턴을 해결하는 능력”을 측정합니다. 수능처럼 외운 내용이 아니라 처음 보는 패턴을 얼마나 유연하게 푸느냐를 평가하는 겁니다. 77.1%는 이 분야에서 현재 공개 모델 중 최고 수준입니다.
다시 말해 이 수치는 단순 암기·검색 성능이 아니라, 맥락 없이 주어진 문제를 스스로 풀어내는 추상 추론 능력에서의 도약을 뜻합니다. 실무에서 보면, “API 스펙 없이 시스템을 설계해 봐”처럼 정답이 하나가 아닌 복잡한 워크플로우 설계에서 차이가 납니다.
벤치마크별로 다른 1등 — 전 항목 최강이 아닙니다
공식 발표 직후 많은 글이 “Gemini 3.1 Pro, 모든 지표 압도”라고 정리했습니다. 그런데 공식 모델카드 벤치마크 표를 직접 보면 이야기가 달라집니다. (출처: Google DeepMind Gemini 3.1 Pro Model Card, 2026.02.19)
| 벤치마크 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 | 1등 |
|---|---|---|---|---|
| ARC-AGI-2 (추상 추론) | 77.1% | 68.8% | 52.9% | 🏆 Gemini |
| SWE-Bench Verified (코딩) | 80.6% | 80.8% | 80.0% | 🏆 Claude |
| GDPval-AA (전문가 대화) | 1317 | 1606 | 1462 | 🏆 Claude |
| GPQA Diamond (과학 지식) | 94.3% | 91.3% | 92.4% | 🏆 Gemini |
| BrowseComp (에이전트 검색) | 85.9% | 84.0% | 65.8% | 🏆 Gemini |
💡 벤치마크 번호가 아닌 용도를 기준으로 놓고 보니 결론이 달랐습니다. 코딩 실무(SWE-Bench Verified)에서는 Claude Opus 4.6이 80.8%로 Gemini 3.1 Pro(80.6%)를 앞섭니다. 전문가 수준의 대화 능력(GDPval-AA)에서도 Claude가 우위입니다. Gemini 3.1 Pro가 확실히 앞서는 구간은 추상 추론과 에이전트 검색입니다.
코딩 보조 도구로 Gemini 3.1 Pro를 고려하고 있다면, SWE-Bench 수치 차이(0.2%p)는 사실상 오차 범위입니다. 단, 에이전트 워크플로우나 복잡한 멀티스텝 검색이 주요 업무라면 Gemini 3.1 Pro가 실질적으로 유리합니다.
실사용에서 부딪힌 한계 3가지
ARC-AGI-2 77.1%는 인상적이지만, 실제로 Gemini CLI·Antigravity·oh-my-opencode 같은 에이전트 환경에서 써보면 다른 문제가 생깁니다.
세 번째 한계는 Gemini 3.1 Pro만의 문제가 아니라 현세대 LLM 전체의 공통 이슈입니다. 그럼에도 빠른 코딩 생성 능력이 전면에 부각되면서 이 리스크가 제대로 전달되지 않고 있습니다.
가격이 비싸도 실제 비용이 낮아지는 구조
Gemini 3.1 Pro는 Gemini 3 Pro보다 API 단가가 높습니다. “더 비싼 모델 = 더 비싼 운영비”라고 생각하기 쉬운데, JetBrains의 AI 디렉터 Vladislav Tankov는 다른 이야기를 합니다. (출처: Google Cloud 공식 블로그, 2026.02.19)
“동일한 결과를 내는 데 필요한 출력 토큰 수가 줄어들었습니다. 이는 복잡한 작업에서 실제 비용을 낮추는 효과로 이어집니다.”
— Vladislav Tankov, Director of AI, JetBrains
단순 계산으로 보면, 토큰당 가격이 20% 올랐더라도 동일 작업에 필요한 토큰이 30% 줄어든다면 실제 청구 금액은 낮아집니다. 구체 수치는 작업 유형에 따라 다르며 이 부분에서 공식 가격 표만으로 결론을 내리면 오판입니다.
단, 이 효과는 추론이 복잡한 작업에서만 유효합니다. 단순 요약이나 짧은 질답처럼 모델 능력이 결과에 영향을 주지 않는 작업이라면, 저렴한 Gemini 3.1 Flash-Lite가 더 효율적입니다.
Deep Think 모드, 쓸수록 비용 주의해야 합니다
Gemini 3.1 Pro는 일반 모드와 별도로 Deep Think(High) 모드를 제공합니다. ARC-AGI-2 77.1%라는 수치도 Thinking High 모드 기준입니다. 중요한 건 이 모드에서 사이버 보안 관련 능력이 이전 버전보다 증가했다는 점입니다.
💡 Google DeepMind가 공식 FSF 보고서에서 밝힌 내용입니다. Gemini 3.1 Pro(Deep Think 없이)도 사이버 영역에서 “alert threshold”에 도달했습니다. 이는 Gemini 3 Pro도 마찬가지였는데, 구글은 CCL(Critical Capability Level)에는 미치지 않았다고 판단해 출시를 진행했습니다. (출처: Google DeepMind Frontier Safety Framework Report, 2026.02.19)
더 흥미로운 점은 Deep Think 모드가 사이버 위협 관점에서 오히려 일반 모드보다 낮은 수치를 보였다는 겁니다. 구글 설명에 따르면 추론 비용을 감안하면 Deep Think 모드가 실질적으로 더 낮은 위험을 갖는다고 하는데, 이 부분의 상세 이유는 공개되지 않았습니다.
실용적으로는 Deep Think 모드는 Thinking 토큰을 대량 소모합니다. 에이전트 루프에서 매 요청마다 Deep Think를 켜두면 비용이 급격히 늘어납니다. 실제 사용자들 사이에서 “계획 반복 문제”가 Deep Think 모드에서 특히 두드러진다는 보고가 많습니다.
Google AI Pro 구독자가 모르는 숨겨진 한도
Gemini 앱에서 Google AI Pro를 구독하면 Gemini 3.1 Pro를 쓸 수 있습니다. 그런데 개발자 도구인 Google Antigravity를 같이 쓸 경우, 실사용자들이 예상하지 못한 한도 벽에 부딪힙니다. (출처: jwhy-study.tistory.com, 2026.03.04 실사용 후기)
| 플랜 | Gemini CLI 일일 한도 | Antigravity 내 3.1 Pro | 실제 체감 |
|---|---|---|---|
| 무료 (개인 계정) | 1,000회/일 | 5회/일 | 오후에 막힘 |
| Google AI Pro | 1,500회/일 | 5회/일 | 오전에도 막힘 |
| Google AI Ultra | 2,000회/일 | 별도 확인 필요 | — |
💡 Gemini CLI 한도와 Antigravity 한도는 별개입니다. Antigravity에서 Gemini 3.1 Pro를 쓰는 Planning 모드는 Pro·Ultra 구독과 관계없이 하루 5회라는 별도 한도가 적용됩니다. 무거운 에이전트 작업을 하루 5번 하면 한도가 소진됩니다.
Gemini CLI는 OAuth 기반이라 구독 없이도 쓸 수 있지만, Antigravity는 Pro 이상 구독이 필요하고 별도 한도가 있습니다. 이 구분이 발표 자료에 명확히 나오지 않아 실제로 혼동하는 사용자가 많습니다.
Q&A — 자주 나오는 질문 5개
마치며 — 총평
Gemini 3.1 Pro는 추상 추론에서 확실히 세대가 달라졌습니다. ARC-AGI-2 77.1%는 수치 그 자체보다 “처음 보는 문제를 스스로 풀어내는 능력”이 실질적으로 올라갔다는 의미입니다. 에이전트 검색(BrowseComp 85.9%)이나 과학 지식(GPQA 94.3%)에서도 경쟁 모델을 앞섭니다.
그런데 솔직히 말하면, 코딩 실무에서는 Claude Opus 4.6과 사실상 동급이고, 전문가 대화 품질에서는 오히려 뒤집니다. Gemini 3.1 Pro가 압도적인 구간과 경쟁이 팽팽한 구간을 구분하지 않으면 도구 선택에서 손해를 봅니다.
Google AI Pro 구독만으로 Antigravity까지 완전히 쓰기 어렵고, 에이전트 루프에서 Thinking 비용이 예상보다 빠르게 소진되는 문제도 있습니다. 이 부분은 본격적으로 쓰기 전에 직접 확인하고 시작하는 게 낫습니다.
📌 본 포스팅 참고 자료
- Google 공식 블로그 — 복잡한 과제 해결을 위해 더욱 스마트해진 제미나이 3.1 프로 (2026.02.19)
- Google DeepMind — Gemini 3.1 Pro Model Card (2026.02.19)
- Google Cloud 공식 블로그 — Gemini 3.1 Pro on Vertex AI & Enterprise (2026.02.19)
- Vertex AI 공식 문서 — Gemini 3.1 Pro 모델 사양 (2026.03.21 기준)
- 실사용 후기 — Gemini CLI·Antigravity·oh-my-opencode 바이브코딩 (2026.03.04)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Pro는 현재 프리뷰 단계이며, 정식 출시 시 가격·한도·기능이 달라질 수 있습니다. 모든 수치는 2026년 2월 기준 공식 자료를 기반으로 하며, 이후 업데이트 내용은 공식 문서에서 확인하시기 바랍니다.







댓글 남기기