Gemini 3.1 Pro, 추론 1등인데 이게 안 됩니다

Published on

in

Gemini 3.1 Pro, 추론 1등인데 이게 안 됩니다

2026.02.19 기준
Gemini 3.1 Pro Preview
IT/AI

Gemini 3.1 Pro, 추론 1등인데
이게 안 됩니다

ARC-AGI-2 벤치마크 77.1%. 구글이 이 숫자 하나로 GPT-5.2(52.9%)와 Claude Opus 4.6(68.8%)을 한 번에 눌렀습니다. 그런데 바로 그 발표문 안에 스스로 인정한 패배 기록이 있고, 실사용자들은 전혀 다른 불만을 쏟아내고 있습니다.

77.1%
ARC-AGI-2 점수
2.5배
Gemini 3 Pro 대비 향상
3위
SWE-Bench Pro 코딩 순위

발표 당일, 숫자보다 먼저 봐야 할 것

2026년 2월 19일, 구글이 Gemini 3.1 Pro를 공식 출시하면서 공개한 벤치마크 표는 경쟁사를 대부분 앞섰습니다. ARC-AGI-2 77.1%, Humanity’s Last Exam 44.4%, GPQA Diamond 94.3%. 숫자만 보면 완벽합니다.

그런데 구글이 직접 공개한 벤치마크 표에 한 줄이 있습니다. SWE-Bench Pro(Public) 54.2%. 이 항목 옆에는 GPT-5.3-Codex 56.8%라는 숫자가 적혀 있고, Gemini 3.1 Pro가 진 항목입니다. 발표 자료 안에 스스로 넣어둔 패배 기록입니다. (출처: Mashable, 2026.02.19)

그리고 같은 날, Reddit /r/Bard에는 다른 종류의 불만이 올라왔습니다. “3.1 Pro는 추론은 천재인데, 감성 지능(EQ)이 전 버전보다 퇴보했다. 창작 글쓰기에서 로봇 같은 톤이 나온다.” 공식 발표문에는 없는 내용입니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 구글은 벤치마크 표에 패배한 항목을 직접 공개했고, 사용자들은 벤치마크에 없는 창작 퇴보 현상을 즉각 보고했습니다. 두 데이터를 교차하면 Gemini 3.1 Pro가 어떤 상황에서 갈리는지 윤곽이 잡힙니다.

▲ 목차로 돌아가기

ARC-AGI-2 77.1%가 실제로 의미하는 것

ARC-AGI-2는 기존 학습 데이터에서 패턴을 찾는 게 아니라, 완전히 새로운 논리 패턴을 처음 보고 푸는 문제를 다루는 벤치마크입니다. 쉽게 말해 “외운 것”이 아니라 “처음 보는 것”을 풀 수 있느냐를 측정합니다. 여기서 Gemini 3.1 Pro는 77.1%를 기록했고, 이는 Gemini 3 Pro(31.1%)의 2.5배입니다. (출처: Google 공식 블로그, blog.google, 2026.02.19)

비교 수치를 직접 놓아보면 차이가 뚜렷합니다. Claude Opus 4.6은 68.8%, GPT-5.2는 52.9%, Gemini 3.1 Pro는 77.1%입니다. 순위 1위입니다. 그런데 이 77.1%라는 숫자가 “다른 모든 작업에서도 1등”을 뜻하지는 않습니다. ARC-AGI-2는 논리 추론 특화 벤치마크이고, 코딩 실전 작업을 측정하는 SWE-Bench Pro는 완전히 다른 결과를 보여줍니다.

💡 같은 모델의 벤치마크인데 항목마다 순위가 달라진다는 것은, 사용 목적에 따라 다른 모델이 유리할 수 있다는 뜻입니다. 이 부분은 기존 요약 글에서 잘 다루지 않는 지점입니다.

벤치마크 Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2
ARC-AGI-2 77.1% 🥇 68.8% 52.9%
Humanity’s Last Exam 44.4% 🥇 40.0% 34.5%
GPQA Diamond 94.3% 🥇 91.3% 92.4%
SWE-Bench Verified 80.6% 80.8% 🥇 80.0%
SWE-Bench Pro (Public) 54.2% 🥉 55.6%

출처: Mashable (2026.02.19), Google 공식 블로그 (2026.02.19). SWE-Bench Pro 1위는 GPT-5.3-Codex 56.8%.

▲ 목차로 돌아가기

코딩 벤치마크에서 밀린 이유

SWE-Bench Verified(검증된 실제 GitHub 이슈 해결)에서는 Claude Opus 4.6이 80.8%로 1위이고 Gemini 3.1 Pro는 80.6%로 사실상 동점입니다. 그런데 SWE-Bench Pro(Public, 더 어려운 실전 코딩 문제)에서는 GPT-5.3-Codex 56.8% > GPT-5.2 55.6% > Gemini 3.1 Pro 54.2% 순입니다. 이 수치는 구글이 직접 공개한 비교 표 안에 들어 있습니다. (출처: Mashable, 2026.02.19)

차이가 2~3%포인트 수준으로 작아 보이지만, 이 차이가 생기는 구조적 이유가 있습니다. ARC-AGI-2는 고립된 논리 퍼즐이고, SWE-Bench Pro는 실제 코드베이스 전체를 읽고 버그를 고치는 작업입니다. 후자는 순수 추론력 외에 컨텍스트를 어떻게 다루느냐, 수정 후 테스트 흐름을 얼마나 정밀하게 실행하느냐에 달려 있습니다. 구글은 “코딩 및 에이전트 워크플로우 성능을 지속적으로 향상시킬 것”이라고 공식 블로그에 명시했는데, 이 문장 자체가 현재 한계를 인정한 것입니다.

💡 코딩 에이전트를 주로 쓴다면 현시점에서 GPT-5.3-Codex나 Claude Opus 4.6 쪽이 SWE-Bench Pro 기준으로 근소하게 앞서 있습니다. Gemini 3.1 Pro가 유리한 조건은 다음 섹션에서 정리합니다.

▲ 목차로 돌아가기

추론이 올라가면 감성은 내려갑니다

이 현상이 왜 생기는지 구조를 보면 이해가 됩니다. 추론 능력을 높이는 쪽으로 모델을 최적화하면, 응답이 더 논리적이고 정확해지는 대신 감성적 뉘앙스나 맥락 흐름에 덜 민감해질 수 있습니다. Gemini 3.1 Pro가 “단편적 결과물이 아닌 고도화된 추론”에 특화됐다고 공식 블로그에서 강조한 것과 같은 맥락입니다. (출처: Google 공식 블로그, blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/, 2026.02.19)

실무에서 이게 문제가 되는 상황은 명확합니다. 콘텐츠 작성, 이메일 톤 조율, 소설이나 시나리오 등 감성 언어가 필요한 작업에서 Gemini 3.1 Pro는 현재 전 버전보다 오히려 부족한 결과를 낼 수 있습니다. 이 용도라면 Claude Opus 4.6이나 Gemini 3 Pro가 더 나을 수 있습니다.

▲ 목차로 돌아가기

Google AI Pro vs Vertex AI API, 비용 차이 직접 계산

Vertex AI 기준 Gemini 3.1 Pro API 가격은 입력 토큰 100만 개당 $2.00(20만 토큰 이하), 출력 토큰 100만 개당 $12.00입니다. (출처: Google Cloud Vertex AI Pricing 페이지, cloud.google.com/vertex-ai/generative-ai/pricing, 2026.03 기준) 1,000 토큰을 약 750자로 보면, A4 1장(약 500자) 분량의 질의응답을 하루 10회 할 경우 월 토큰 사용량은 약 15만 토큰(입력+출력 합산 추정)이 됩니다.

📊 월 비용 직접 계산 (Vertex AI API 기준)

・ 가정: 하루 10회 질의응답 / 1회 평균 입력 5,000토큰 + 출력 2,000토큰
・ 월 입력 토큰: 5,000 × 10 × 30 = 150만 토큰
・ 월 출력 토큰: 2,000 × 10 × 30 = 60만 토큰
・ 입력 비용: $1.50M × $2 = $3.00
・ 출력 비용: $0.60M × $12 = $7.20
월 합계: 약 $10.20(약 1만5천 원)

・ 같은 사용량을 Google AI Pro($19.99)로 커버하면 약 2배 비용.

즉, API를 직접 쓸 수 있는 개발자라면 Vertex AI가 Google AI Pro보다 약 2배 저렴할 수 있습니다. 단, API 호출 설정과 인증 처리가 필요하고, 컨텍스트 캐싱을 쓰면 비용을 추가로 줄일 수 있습니다. 일반 사용자라면 앱 구독이 훨씬 간단하고 현실적입니다.

▲ 목차로 돌아가기

이 조건에서는 쓸 만하고, 이 조건에서는 다른 걸 씁니다

수집된 데이터를 정리하면 Gemini 3.1 Pro가 확실히 유리한 상황과 그렇지 않은 상황이 구분됩니다. 벤치마크와 실사용 후기를 교차하면 다음과 같은 윤곽이 나옵니다.

💡 벤치마크 상위 항목들을 실제 사용 흐름에 대입해 보면, “언제 어떤 모델을 쓸지”의 판단 기준이 생깁니다.

✅ Gemini 3.1 Pro가 유리한 상황

  • 수학/과학 추론 (GPQA Diamond 94.3%)
  • 복잡한 논리 퍼즐, 새로운 패턴 분석
  • 코드 기반 SVG/애니메이션 생성
  • 멀티모달 데이터 통합 분석
  • 100만 토큰 긴 문서 처리
  • Google 서비스(Drive, Gmail)와 연동

❌ 다른 모델을 고려할 상황

  • 소설·시나리오 등 창작 글쓰기
  • 감성 톤 조율이 필요한 이메일·카피
  • 복잡한 코딩 에이전트 (SWE-Bench Pro 3위)
  • 한국어 창작 감성 표현
  • 원샷 작업 정확도 (Reddit 사용자 후기 기반)

Google AI Studio에서 프리뷰 버전으로 무료 사용이 가능하기 때문에, 사용 목적에 맞는지 직접 테스트해보는 게 가장 정확합니다. 현재 Gemini 앱에서도 무료 사용자에게 제한적으로 3.1 Pro 접근을 허용하고 있습니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?

Google AI Studio에서 API 키로 프리뷰 버전을 무료로 사용할 수 있습니다. Gemini 앱에서도 무료 사용자에게 제한적으로 개방돼 있지만, 높은 사용 한도는 Google AI Pro($19.99/월) 또는 Ultra 플랜이 필요합니다. NotebookLM에서는 유료 사용자 전용입니다. (출처: Google 공식 블로그, 2026.02.19)

Q2. Gemini 3 Pro와 3.1 Pro 중 어느 걸 써야 하나요?

논리 추론, 수학/과학 분석, 데이터 통합 작업이라면 3.1 Pro가 ARC-AGI-2 기준으로 2.5배 향상돼 확실히 낫습니다. 그런데 창작 글쓰기나 감성 언어가 필요한 작업이라면 실사용자들이 3 Pro를 선호하는 경향이 있습니다. Gemini 앱에서는 현재 3.1 Pro가 기본 모델로 교체됐기 때문에, 별도 선택 없이 자동으로 3.1 Pro가 쓰입니다. (Reddit r/Bard 기반 사용자 보고, 2026.02 기준, 확인 필요)

Q3. Gemini 3.1 Pro로 코딩하는 게 맞나요, Claude 쓰는 게 맞나요?

SWE-Bench Verified(실제 GitHub 이슈 해결) 기준이라면 Claude Opus 4.6(80.8%)과 Gemini 3.1 Pro(80.6%)가 사실상 동점입니다. 그런데 더 어려운 SWE-Bench Pro(Public)에서는 GPT-5.3-Codex > GPT-5.2 > Gemini 3.1 Pro 순입니다. 일반 코딩 작업은 어느 쪽이든 큰 차이가 없고, 복잡한 레거시 코드 수정 작업이라면 GPT-5.3-Codex나 Claude가 현재 근소하게 앞섭니다. (출처: Mashable 2026.02.19)

Q4. Vertex AI API는 어떻게 쓰나요?

Google Cloud 계정을 생성하고 Vertex AI API를 활성화한 후, AI Studio에서 API 키를 발급받는 방식으로 시작합니다. 또는 Google AI Studio(aistudio.google.com)에서 직접 무료 프리뷰를 사용할 수 있습니다. 기업 규모 사용은 Gemini Enterprise를 통해 별도 계약이 필요합니다. API 가격은 입력 $2/1M 토큰, 출력 $12/1M 토큰(20만 토큰 이하 기준)입니다. (출처: Vertex AI Pricing 페이지, 2026.03 기준)

Q5. ARC-AGI-2에서 1등이면 가장 똑똑한 AI 아닌가요?

ARC-AGI-2는 “처음 보는 논리 패턴을 얼마나 풀 수 있느냐”를 측정하는 벤치마크로, 이 영역에서는 현재 3.1 Pro가 최고 수준입니다. 그러나 “코딩 실전 에이전트 능력”을 측정하는 SWE-Bench Pro에서는 GPT-5.3-Codex에 밀렸고, 창작 감성 언어에서는 사용자 후기 기준으로 전 버전보다 퇴보했습니다. “가장 똑똑하다”는 표현이 맞는 작업 영역이 정해져 있습니다.

▲ 목차로 돌아가기

마치며 — 총평

그런데 같은 발표문 안에서 구글은 코딩 실전 에이전트 영역에서 GPT-5.3-Codex에 졌다고 스스로 밝혔고, 출시 당일 사용자들은 창작 글쓰기 감성 퇴보를 즉각 보고했습니다. 이 두 가지를 함께 보면 Gemini 3.1 Pro가 무엇에 최적화됐는지, 무엇에 아직 한계가 있는지가 명확해집니다.

수학/과학 추론, 멀티모달 분석, 복잡한 논리 처리라면 현시점 최선입니다. 창작이나 코딩 에이전트 위주라면 Claude나 GPT-5.3-Codex와 병행해서 사용 목적에 따라 선택하는 게 합리적입니다. 구글이 “코딩 에이전트 성능을 계속 향상시킬 것”이라고 밝혔으니, 다음 버전에서 이 격차가 좁혀질 가능성은 있습니다.

📚 본 포스팅 참고 자료

  1. Google 공식 블로그 — 제미나이 3.1 프로 출시 발표
    https://blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/
  2. Google Cloud — Vertex AI Generative AI Pricing (2026.03 기준)
    https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=ko
  3. Mashable — Gemini 3.1 Pro 벤치마크 분석 (Timothy Beck Werth, 2026.02.19)
    https://mashable.com/article/google-releases-gemini-3-1-pro-benchmarks
  4. Reddit r/Bard — 창작 글쓰기 EQ 퇴보 보고 (2026.02.19)
    https://www.reddit.com/r/Bard/comments/1r9cm2o/
  5. Google Cloud — Vertex AI Gemini 2.5 Pro 공식 문서
    https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=ko

⚠️ 본 포스팅은 2026년 2월 19일~3월 20일 공개 자료 기준으로 작성됐습니다. AI 서비스는 업데이트로 성능·가격·UI가 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·기능이 변경될 수 있으니 최신 공식 문서를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기