TECH
Gemini 3.1 Pro, 전작보다 낫다고요? 이 영역만 빼고요
Google이 2026년 2월 19일 Gemini 3.1 Pro를 공개했습니다. ARC-AGI-2 벤치마크에서 전작 대비 2.48배 점수를 기록했지만, 막상 창작·글쓰기 작업에서는 “전작이 낫다”는 목소리가 공식 포럼을 가득 채웠습니다. 수치 뒤에 숨은 이야기를 직접 공식 자료와 실측 데이터로 파고들었습니다.
2.48배라는 숫자, 정확히 무슨 의미인가요
Google의 공식 발표 기준(2026.02.19)으로, Gemini 3.1 Pro는 ARC-AGI-2에서 77.1%를 기록했습니다. 전작 Gemini 3 Pro의 31.1%와 비교하면 약 2.48배 차이입니다. ARC-AGI-2는 완전히 새로운 논리 패턴을 처음 보고 풀어야 하는 벤치마크로, 사전 학습 데이터로 “외워서” 풀 수 없는 구조입니다. 그래서 이 벤치마크의 점수 상승은 단순 파라미터 증가가 아닌 추론 구조 개선의 신호로 읽힙니다.
같은 기준에서 Claude Sonnet 4.6은 58.3%, Claude Opus 4.6은 68.8%입니다. GPT-5.2는 52.9%에 그쳤습니다. 77.1%는 이 목록에서 단독 선두입니다. (출처: DeepMind Gemini 3.1 Pro Model Card, 2026.02.19)
💡 공식 벤치마크와 실사용 피드백을 같이 놓고 보니, 수치가 높은 곳과 체감이 좋은 곳이 정확히 다른 방향을 가리키고 있었습니다.
다만 이 수치는 “Thinking (High)” 모드 기준입니다. 일반 대화 모드에서의 체감 성능은 별개 이야기입니다. 벤치마크 점수는 최대 성능 상한선이지, 일상 사용 평균치가 아닙니다.
Gemini 3 Pro Preview 강제 종료 — 공지에서 중단까지 11일
Google은 2026년 2월 26일 공지를 올려, 3월 9일부로 Gemini 3 Pro Preview를 종료한다고 알렸습니다. 공지에서 종료까지 11일. 공식 정책 문서에는 “Preview 모델은 종료 전 최소 2주 사전 공지를 제공한다”고 명시되어 있습니다. (출처: Google AI Developer Forum, 2026.02.26)
정책상 기준일인 3월 12일보다 3일 앞서 종료된 셈입니다. 실제로 포럼에서 개발자 한 명이 “이건 자체 정책 위반”이라며 연장을 요청했고, Google 측은 별도 이유를 공식적으로 밝히지 않았습니다. 단, 3월 6일부터 `-latest` 별칭이 3.1 Pro Preview를 가리키도록 미리 전환되었습니다.
💡 “최소 2주 공지” 정책이 있는데도 11일 만에 종료됐다는 점은, 기존 블로그 어디에서도 짚지 않은 부분입니다.
API를 쓰던 개발자 중 일부는 앱이 503 에러를 뱉기 시작하고 나서야 종료 사실을 알게 됐다고 제보했습니다. “모델을 교체했는데 타임아웃이 계속 난다”는 후속 글도 포럼에 연이어 올라왔습니다.
3.1 Pro가 오히려 밀리는 벤치마크가 있습니다
공식 모델 카드에 공개된 전체 벤치마크 표를 직접 확인하면, 모든 항목에서 3.1 Pro가 앞서는 건 아닙니다. MMMU-Pro(멀티모달 이해·추론)에서는 Gemini 3 Pro가 81.0%로 3.1 Pro의 80.5%보다 높습니다. 멀티모달 종합 이해력만 놓고 보면 전작이 약간 앞서는 셈입니다. (출처: DeepMind Gemini 3.1 Pro Model Card, 2026.02.19)
| 벤치마크 | Gemini 3.1 Pro | Gemini 3 Pro | 결과 |
|---|---|---|---|
| ARC-AGI-2 (추론) | 77.1% | 31.1% | 3.1 승 ✅ |
| GPQA Diamond (과학) | 94.3% | 91.9% | 3.1 승 ✅ |
| MMMU-Pro (멀티모달) | 80.5% | 81.0% | 3 Pro 승 ⚠️ |
| SWE-Bench Pro (코딩) | 54.2% | 43.3% | 3.1 승 ✅ |
| LiveCodeBench Pro (경쟁 코딩) | 2887 Elo | 2439 Elo | 3.1 승 ✅ |
출처: DeepMind Gemini 3.1 Pro Model Card (2026.02.19) — Thinking (High) 모드 기준
이미지·영상을 복합적으로 이해하는 과제가 많다면, 3.1 Pro가 무조건 우위라고 보기 어렵습니다. “버전이 올라가면 무조건 낫다”는 생각이 꼭 맞지는 않습니다.
창작·글쓰기 사용자들이 반발한 이유
Google AI Developer Forum에는 Gemini 3 Pro Preview 종료 공지 이후 수십 개의 항의 댓글이 달렸습니다. 반발의 핵심은 성능 수치가 아니라 “느낌”이었습니다. 한 사용자는 이렇게 정리했습니다. “Gemini 3.0 Pro는 더 살아있는 느낌이다. 감정적으로 유동적이고, 장면에 에너지를 부여한다. 3.1 Pro는 이미 맥락이 존재하면 정교하게 다듬는다.” (출처: Google AI Developer Forum, 2026.03.03)
특히 일본어 창작을 주로 쓰는 사용자는 “3.1 Pro가 EQ-Bench3(감성 지능 벤치마크)에서 3.0 Pro에 비해 명확히 낮다”고 지적했습니다. 수학·코딩 중심의 벤치마크 최적화가 자연어 감성 표현에 트레이드오프를 만들었을 가능성이 있습니다. Google은 이 부분에 대해 공식 답변을 내놓지 않은 상태입니다.
💡 벤치마크를 올리려면 특정 능력을 강화해야 하고, 그 과정에서 다른 능력이 조용히 조정됩니다. 이 관계를 공식 문서는 명시하지 않습니다.
글쓰기·역할극·감성 창작이 주 사용처라면, 3.1 Pro로의 강제 전환 이후 체감 변화를 충분히 테스트해볼 필요가 있습니다. 수치는 올랐지만 내가 쓰는 용도에서는 다르게 느껴질 수 있습니다.
Deep Think 모드를 켜면 오히려 나빠지는 영역
공식 Frontier Safety Framework 보고서에서 흥미로운 수치가 나왔습니다. 사이버 보안 역량 평가에서 Gemini 3.1 Pro는 Deep Think 모드를 켰을 때 오히려 성능이 낮아졌습니다. 보고서는 “추론 비용을 감안하면 Deep Think 모드가 일반 모드보다 현저히 낮은 성능을 보인다”고 직접 밝혔습니다. (출처: DeepMind Gemini 3.1 Pro Model Card — Frontier Safety, 2026.02.19)
추론을 길게 펼치는 방식이 항상 정확도를 높이지는 않습니다. 특히 빠른 패턴 인식이 필요한 사이버 도메인에서는 느리게 생각할수록 오히려 방향을 잃는 현상이 나타났습니다. Deep Think는 수학·과학 연구처럼 단계별 검증이 필요한 작업에 맞고, 모든 상황에서 최선의 선택이 아닙니다.
💡 “더 오래 생각하면 더 정확하다”는 공식이 사이버 도메인에서 깨졌다는 사실이 Google 공식 문서에 그대로 나와 있습니다.
Machine Learning R&D 항목에서는 파인튜닝 스크립트 런타임을 300초 → 47초로 줄이는 과제에서 인간 기준(94초)을 넘는 성과를 냈습니다. Deep Think 모드의 강점과 약점이 도메인에 따라 극명하게 갈립니다.
어느 요금제에서 3.1 Pro를 쓸 수 있나요
Gemini 앱 기준으로 3.1 Pro는 Google AI Pro·Ultra 구독자에게 높은 한도로 제공됩니다. Gemini Release Notes(2026.02.19)에 “3.1 Pro is rolling out globally to the Gemini app, with higher limits for users with Google AI Pro and Ultra plans”이라고 명시되어 있습니다. 무료 플랜에서는 사용 가능 여부와 한도가 제한적입니다.
| 접근 경로 | 요금제 | 상태 |
|---|---|---|
| Gemini 앱 | AI Pro / Ultra | 높은 한도 제공 ✅ |
| Gemini API / AI Studio | API 키 보유자 | Preview 접근 가능 ✅ |
| Vertex AI / Gemini Enterprise | Google Cloud 계정 | Preview 접근 가능 ✅ |
| NotebookLM | Pro / Ultra 전용 | Pro·Ultra 한정 ⚠️ |
출처: Google Blog (2026.02.19), Gemini Release Notes (2026.02.19)
JetBrains의 AI Director는 “Gemini 3.1 Pro가 최상의 3 Pro Preview 실행 결과 대비 최대 15% 향상됐으며, 더 빠르고 더 적은 토큰으로 더 믿을 만한 결과를 낸다”고 밝혔습니다. 개발 도구 측면에서 Gemini CLI, Android Studio, Google Antigravity에서도 Preview로 접근 가능합니다. (출처: Google Cloud Blog, 2026.02.19)
Q&A
마치며
Gemini 3.1 Pro는 코딩·추론·에이전트 워크플로 중심으로 확실한 도약을 이뤘습니다. ARC-AGI-2 77.1%라는 수치는 현재 공개된 모델 중 최고 수준이고, SWE-Bench Pro·LiveCodeBench Pro에서도 리더보드 상단을 차지합니다. 코드 작업이 주라면 3.1 Pro는 지금 당장 전환할 이유가 충분합니다.
하지만 창작·감성 글쓰기가 중심이라면 조금 달리 봐야 합니다. 수치가 모든 것을 말해주지 않는다는 사실을, 이번에는 Google 공식 포럼이 직접 증명했습니다. 3.0 Pro를 선호하던 사용자들이 강제로 3.1 Pro로 이전됐고, 일부는 여전히 대안을 찾고 있습니다.
용도에 맞게 선택하는 게 맞습니다. “버전이 높으면 무조건 낫다”는 전제로 교체했다가 체감이 다르면, 그건 수치가 거짓말한 게 아니라 내가 보는 기준이 달랐던 겁니다.
📎 본 포스팅 참고 자료
- Google Blog — Gemini 3.1 Pro: A smarter model for your most complex tasks (2026.02.19)
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/ - DeepMind — Gemini 3.1 Pro Model Card (2026.02.19)
https://deepmind.google/models/model-cards/gemini-3-1-pro/ - Google Cloud Blog — Gemini 3.1 Pro on Vertex AI (2026.02.19)
https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-pro-on-gemini-cli-gemini-enterprise-and-vertex-ai - Gemini Release Notes — 2026.02.19 업데이트
https://gemini.google/release-notes/ - Google AI Developer Forum — Migrate from Gemini 3 Pro Preview (2026.02.26)
https://discuss.ai.google.dev/t/migrate-from-gemini-3-pro-preview-to-gemini-3-1-pro-preview-before-march-9-2026/127062
※ 본 포스팅은 2026년 2월 19일 기준 공개된 Gemini 3.1 Pro Preview 정보를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 가격·모델 가용성·요금제 혜택은 Google 공식 페이지에서 반드시 최신 정보를 확인하세요.











댓글 남기기