Gemini 3.1 Pro Preview
IT/AI
Gemini 3.1 Pro, 추론 1등인데
이게 안 됩니다
ARC-AGI-2 벤치마크 77.1%. 구글이 이 숫자 하나로 GPT-5.2(52.9%)와 Claude Opus 4.6(68.8%)을 한 번에 눌렀습니다. 그런데 바로 그 발표문 안에 스스로 인정한 패배 기록이 있고, 실사용자들은 전혀 다른 불만을 쏟아내고 있습니다.
발표 당일, 숫자보다 먼저 봐야 할 것
2026년 2월 19일, 구글이 Gemini 3.1 Pro를 공식 출시하면서 공개한 벤치마크 표는 경쟁사를 대부분 앞섰습니다. ARC-AGI-2 77.1%, Humanity’s Last Exam 44.4%, GPQA Diamond 94.3%. 숫자만 보면 완벽합니다.
그런데 구글이 직접 공개한 벤치마크 표에 한 줄이 있습니다. SWE-Bench Pro(Public) 54.2%. 이 항목 옆에는 GPT-5.3-Codex 56.8%라는 숫자가 적혀 있고, Gemini 3.1 Pro가 진 항목입니다. 발표 자료 안에 스스로 넣어둔 패배 기록입니다. (출처: Mashable, 2026.02.19)
그리고 같은 날, Reddit /r/Bard에는 다른 종류의 불만이 올라왔습니다. “3.1 Pro는 추론은 천재인데, 감성 지능(EQ)이 전 버전보다 퇴보했다. 창작 글쓰기에서 로봇 같은 톤이 나온다.” 공식 발표문에는 없는 내용입니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 구글은 벤치마크 표에 패배한 항목을 직접 공개했고, 사용자들은 벤치마크에 없는 창작 퇴보 현상을 즉각 보고했습니다. 두 데이터를 교차하면 Gemini 3.1 Pro가 어떤 상황에서 갈리는지 윤곽이 잡힙니다.
ARC-AGI-2 77.1%가 실제로 의미하는 것
ARC-AGI-2는 기존 학습 데이터에서 패턴을 찾는 게 아니라, 완전히 새로운 논리 패턴을 처음 보고 푸는 문제를 다루는 벤치마크입니다. 쉽게 말해 “외운 것”이 아니라 “처음 보는 것”을 풀 수 있느냐를 측정합니다. 여기서 Gemini 3.1 Pro는 77.1%를 기록했고, 이는 Gemini 3 Pro(31.1%)의 2.5배입니다. (출처: Google 공식 블로그, blog.google, 2026.02.19)
비교 수치를 직접 놓아보면 차이가 뚜렷합니다. Claude Opus 4.6은 68.8%, GPT-5.2는 52.9%, Gemini 3.1 Pro는 77.1%입니다. 순위 1위입니다. 그런데 이 77.1%라는 숫자가 “다른 모든 작업에서도 1등”을 뜻하지는 않습니다. ARC-AGI-2는 논리 추론 특화 벤치마크이고, 코딩 실전 작업을 측정하는 SWE-Bench Pro는 완전히 다른 결과를 보여줍니다.
💡 같은 모델의 벤치마크인데 항목마다 순위가 달라진다는 것은, 사용 목적에 따라 다른 모델이 유리할 수 있다는 뜻입니다. 이 부분은 기존 요약 글에서 잘 다루지 않는 지점입니다.
| 벤치마크 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| ARC-AGI-2 | 77.1% 🥇 | 68.8% | 52.9% |
| Humanity’s Last Exam | 44.4% 🥇 | 40.0% | 34.5% |
| GPQA Diamond | 94.3% 🥇 | 91.3% | 92.4% |
| SWE-Bench Verified | 80.6% | 80.8% 🥇 | 80.0% |
| SWE-Bench Pro (Public) | 54.2% 🥉 | — | 55.6% |
출처: Mashable (2026.02.19), Google 공식 블로그 (2026.02.19). SWE-Bench Pro 1위는 GPT-5.3-Codex 56.8%.
코딩 벤치마크에서 밀린 이유
SWE-Bench Verified(검증된 실제 GitHub 이슈 해결)에서는 Claude Opus 4.6이 80.8%로 1위이고 Gemini 3.1 Pro는 80.6%로 사실상 동점입니다. 그런데 SWE-Bench Pro(Public, 더 어려운 실전 코딩 문제)에서는 GPT-5.3-Codex 56.8% > GPT-5.2 55.6% > Gemini 3.1 Pro 54.2% 순입니다. 이 수치는 구글이 직접 공개한 비교 표 안에 들어 있습니다. (출처: Mashable, 2026.02.19)
차이가 2~3%포인트 수준으로 작아 보이지만, 이 차이가 생기는 구조적 이유가 있습니다. ARC-AGI-2는 고립된 논리 퍼즐이고, SWE-Bench Pro는 실제 코드베이스 전체를 읽고 버그를 고치는 작업입니다. 후자는 순수 추론력 외에 컨텍스트를 어떻게 다루느냐, 수정 후 테스트 흐름을 얼마나 정밀하게 실행하느냐에 달려 있습니다. 구글은 “코딩 및 에이전트 워크플로우 성능을 지속적으로 향상시킬 것”이라고 공식 블로그에 명시했는데, 이 문장 자체가 현재 한계를 인정한 것입니다.
💡 코딩 에이전트를 주로 쓴다면 현시점에서 GPT-5.3-Codex나 Claude Opus 4.6 쪽이 SWE-Bench Pro 기준으로 근소하게 앞서 있습니다. Gemini 3.1 Pro가 유리한 조건은 다음 섹션에서 정리합니다.
추론이 올라가면 감성은 내려갑니다
이 현상이 왜 생기는지 구조를 보면 이해가 됩니다. 추론 능력을 높이는 쪽으로 모델을 최적화하면, 응답이 더 논리적이고 정확해지는 대신 감성적 뉘앙스나 맥락 흐름에 덜 민감해질 수 있습니다. Gemini 3.1 Pro가 “단편적 결과물이 아닌 고도화된 추론”에 특화됐다고 공식 블로그에서 강조한 것과 같은 맥락입니다. (출처: Google 공식 블로그, blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/, 2026.02.19)
실무에서 이게 문제가 되는 상황은 명확합니다. 콘텐츠 작성, 이메일 톤 조율, 소설이나 시나리오 등 감성 언어가 필요한 작업에서 Gemini 3.1 Pro는 현재 전 버전보다 오히려 부족한 결과를 낼 수 있습니다. 이 용도라면 Claude Opus 4.6이나 Gemini 3 Pro가 더 나을 수 있습니다.
Google AI Pro vs Vertex AI API, 비용 차이 직접 계산
Vertex AI 기준 Gemini 3.1 Pro API 가격은 입력 토큰 100만 개당 $2.00(20만 토큰 이하), 출력 토큰 100만 개당 $12.00입니다. (출처: Google Cloud Vertex AI Pricing 페이지, cloud.google.com/vertex-ai/generative-ai/pricing, 2026.03 기준) 1,000 토큰을 약 750자로 보면, A4 1장(약 500자) 분량의 질의응답을 하루 10회 할 경우 월 토큰 사용량은 약 15만 토큰(입력+출력 합산 추정)이 됩니다.
📊 월 비용 직접 계산 (Vertex AI API 기준)
・ 가정: 하루 10회 질의응답 / 1회 평균 입력 5,000토큰 + 출력 2,000토큰
・ 월 입력 토큰: 5,000 × 10 × 30 = 150만 토큰
・ 월 출력 토큰: 2,000 × 10 × 30 = 60만 토큰
・ 입력 비용: $1.50M × $2 = $3.00
・ 출력 비용: $0.60M × $12 = $7.20
・ 월 합계: 약 $10.20(약 1만5천 원)
・ 같은 사용량을 Google AI Pro($19.99)로 커버하면 약 2배 비용.
즉, API를 직접 쓸 수 있는 개발자라면 Vertex AI가 Google AI Pro보다 약 2배 저렴할 수 있습니다. 단, API 호출 설정과 인증 처리가 필요하고, 컨텍스트 캐싱을 쓰면 비용을 추가로 줄일 수 있습니다. 일반 사용자라면 앱 구독이 훨씬 간단하고 현실적입니다.
이 조건에서는 쓸 만하고, 이 조건에서는 다른 걸 씁니다
수집된 데이터를 정리하면 Gemini 3.1 Pro가 확실히 유리한 상황과 그렇지 않은 상황이 구분됩니다. 벤치마크와 실사용 후기를 교차하면 다음과 같은 윤곽이 나옵니다.
💡 벤치마크 상위 항목들을 실제 사용 흐름에 대입해 보면, “언제 어떤 모델을 쓸지”의 판단 기준이 생깁니다.
✅ Gemini 3.1 Pro가 유리한 상황
- 수학/과학 추론 (GPQA Diamond 94.3%)
- 복잡한 논리 퍼즐, 새로운 패턴 분석
- 코드 기반 SVG/애니메이션 생성
- 멀티모달 데이터 통합 분석
- 100만 토큰 긴 문서 처리
- Google 서비스(Drive, Gmail)와 연동
❌ 다른 모델을 고려할 상황
- 소설·시나리오 등 창작 글쓰기
- 감성 톤 조율이 필요한 이메일·카피
- 복잡한 코딩 에이전트 (SWE-Bench Pro 3위)
- 한국어 창작 감성 표현
- 원샷 작업 정확도 (Reddit 사용자 후기 기반)
Google AI Studio에서 프리뷰 버전으로 무료 사용이 가능하기 때문에, 사용 목적에 맞는지 직접 테스트해보는 게 가장 정확합니다. 현재 Gemini 앱에서도 무료 사용자에게 제한적으로 3.1 Pro 접근을 허용하고 있습니다.
Q&A 5가지
마치며 — 총평
그런데 같은 발표문 안에서 구글은 코딩 실전 에이전트 영역에서 GPT-5.3-Codex에 졌다고 스스로 밝혔고, 출시 당일 사용자들은 창작 글쓰기 감성 퇴보를 즉각 보고했습니다. 이 두 가지를 함께 보면 Gemini 3.1 Pro가 무엇에 최적화됐는지, 무엇에 아직 한계가 있는지가 명확해집니다.
수학/과학 추론, 멀티모달 분석, 복잡한 논리 처리라면 현시점 최선입니다. 창작이나 코딩 에이전트 위주라면 Claude나 GPT-5.3-Codex와 병행해서 사용 목적에 따라 선택하는 게 합리적입니다. 구글이 “코딩 에이전트 성능을 계속 향상시킬 것”이라고 밝혔으니, 다음 버전에서 이 격차가 좁혀질 가능성은 있습니다.
📚 본 포스팅 참고 자료
- Google 공식 블로그 — 제미나이 3.1 프로 출시 발표
https://blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/ - Google Cloud — Vertex AI Generative AI Pricing (2026.03 기준)
https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=ko - Mashable — Gemini 3.1 Pro 벤치마크 분석 (Timothy Beck Werth, 2026.02.19)
https://mashable.com/article/google-releases-gemini-3-1-pro-benchmarks - Reddit r/Bard — 창작 글쓰기 EQ 퇴보 보고 (2026.02.19)
https://www.reddit.com/r/Bard/comments/1r9cm2o/ - Google Cloud — Vertex AI Gemini 2.5 Pro 공식 문서
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=ko
⚠️ 본 포스팅은 2026년 2월 19일~3월 20일 공개 자료 기준으로 작성됐습니다. AI 서비스는 업데이트로 성능·가격·UI가 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·기능이 변경될 수 있으니 최신 공식 문서를 확인하시기 바랍니다.




댓글 남기기