📅 2026.02.19 기준
⚙️ Preview 상태
🏷️ API $2/$12 per 1M tokens

Gemini 3.1 Pro, 추론 1위면 코딩도 1위일까요?

2026년 2월 19일, 구글이 Gemini 3.1 Pro를 전격 공개했습니다. ARC-AGI-2 벤치마크에서 77.1%를 기록하며 전작인 3 Pro 대비 두 배 이상의 추론 성능을 달성했다는 발표가 나오자마자 “이번엔 구글이 이겼다”는 반응이 쏟아졌습니다. 그런데 막상 데이터를 들여다보면 숫자가 보여주지 않는 조건들이 있습니다. 벤치마크 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

77.1%

ARC-AGI-2 점수

94.3%

GPQA Diamond

$2/$12

API 입력/출력 (1M)

Preview

현재 배포 상태

벤치마크 숫자가 전부일까요?

Gemini 3.1 Pro는 2026년 2월 19일 출시되며 ARC-AGI-2에서 77.1%를 달성했습니다. 전작 Gemini 3 Pro의 ARC-AGI-2 점수 대비 두 배 이상 향상된 수치입니다. (출처: Google 공식 블로그, 2026.02.19)

이 수치가 의미하는 것은 단순합니다 — 완전히 새로운 논리 패턴을 얼마나 빠르게 풀어내는지를 측정하는 시험에서 77.1점을 받았다는 뜻입니다. GPQA Diamond(PhD급 과학 추론)에서도 94.3%를 기록했습니다. 그런데 같은 벤치마크 표를 보면 Claude Sonnet 4.6의 ARC-AGI-2 점수는 58.3%, Claude Opus 4.6은 52.9%입니다. (출처: blog.kwt.co.kr, 2026.03.10 기준 비교표)

18개 주요 벤치마크 중 12개에서 1위를 차지했다는 표현은 사실입니다. 그런데 그 18개 중 코딩 실전 지표(SWE-bench Verified)에서는 수치가 공개되지 않았습니다. 빠진 항목이 무엇인지를 보는 것이 여기서는 더 중요합니다.

💡 공식 발표문과 Artificial Analysis 비교 지표를 같이 놓고 보니 이런 차이가 보였습니다 — 구글이 1위라고 강조한 항목과 공개하지 않은 항목이 정확히 다른 분야를 가리키고 있습니다.

▲ 목차로 돌아가기

코딩에서 예상과 달랐던 지점

솔직히 말하면, “추론 1위 = 코딩 1위”라는 등식은 이번에 성립하지 않습니다. SWE-bench Verified(실전 코딩 벤치마크)에서 Claude Opus 4.6은 80.8%, Claude Sonnet 4.6은 79.6%, GPT-5.4는 77.2%, Gemini 3 Flash는 78%를 기록했습니다. Gemini 3.1 Pro의 SWE-bench 수치는 공식적으로 공개되지 않았습니다. (출처: blog.kwt.co.kr 비교표, 2026.03.10 기준)

더 주목할 부분이 있습니다. Gemini 3 Flash($0.30/1M input)가 SWE-bench에서 78%를 기록하며, 이전 세대 Gemini 3 Pro(76.2%)를 역전했습니다. 즉 코딩 작업만 놓고 보면 3.1 Pro보다 훨씬 저렴한 3 Flash가 실전에서 더 검증된 선택일 수 있다는 결론이 나옵니다. 3.1 Pro가 코딩에서도 앞서 있다면 그 수치를 공개했을 것입니다.

💡 Artificial Analysis 코딩 지수에서 3.1 Pro는 Terminal-Bench Hard(54%), SciCode(59%)에서 1위를 달성했습니다. (출처: clien.net, Artificial Analysis 번역본) 이 두 항목은 “코딩 연구”에 가까운 영역이고, 일반적인 개발 업무와 직결되는 SWE-bench는 별개입니다.

▲ 목차로 돌아가기

비용이 절반이라는 말의 실제 맥락

구글과 Artificial Analysis가 공통으로 강조한 표현이 있습니다. “Claude Opus 4.6 대비 운영 비용 절반 미만”입니다. 이 수치의 기반을 직접 확인해봤습니다. Gemini 3.1 Pro Preview의 API 가격은 입력 $2.00/1M tokens, 출력 $12.00/1M tokens입니다. (출처: pricepertoken.com, Vertex AI 공식 문서 기준, 2026.02 현재) Claude Opus 4.6의 API 가격은 입력 $5.00, 출력 $25.00/1M tokens입니다.

단순 계산으로 입력 토큰은 약 2.5배 저렴합니다.
$$\text{비용 비율} = \frac{\$5.00}{\$2.00} = 2.5\text{배 (입력 토큰 기준)}$$
그런데 Artificial Analysis는 “실제 지능 지수 실행 비용이 Opus 4.6의 절반 미만”이라고 했습니다. 이는 3.1 Pro가 Opus 4.6보다 출력 토큰을 적게 사용하는 경향도 반영된 수치입니다. 그러나 이 비교의 맹점이 하나 있습니다 — 오픈 웨이트 선두 모델인 GLM-5의 동일 비용은 $547이고, 3.1 Pro로 같은 작업을 하면 $892가 듭니다. “Opus보다 싸다”는 맞는 말이지만 “저렴하다”는 상대적인 표현임을 기억해야 합니다. (출처: clien.net, Artificial Analysis 번역, 2026.02.19)

모델	API 입력	API 출력	비고
Gemini 3.1 Pro Preview	$2.00	$12.00	Preview 중
Claude Opus 4.6	$5.00	$25.00	GA
Claude Sonnet 4.6	$3.00	$15.00	GA, 코딩 79.6%
Gemini 3 Flash	$0.30	$2.50	GA, SWE 78%
GPT-5.4	$2.50	–	GA, 컴퓨터 사용

(출처: blog.kwt.co.kr 가격 비교표, pricepertoken.com, 2026.02~03 기준)

▲ 목차로 돌아가기

Preview 상태가 의미하는 것

구글 공식 블로그는 이렇게 밝히고 있습니다. “3.1 프로를 프리뷰 버전으로 배포하여 이러한 업데이트를 검증하고, 정식 출시(GA) 전 에이전틱 워크플로우를 지속적으로 개선하겠습니다.” (출처: blog.google/intl/ko-kr, 2026.02.19)

이 말이 의미하는 바는 명확합니다 — 현재 3.1 Pro는 GA(Generally Available)가 아닌 Preview 상태입니다. 공식 changelog를 보면 Gemini 3 Pro Preview가 2026년 3월 9일부로 종료되며 3.1 Pro Preview로 마이그레이션이 권고됐습니다. (출처: ai.google.dev/gemini-api/docs/changelog, 2026.01.29 최종 업데이트) Preview 모델은 언제든 동작 방식이 바뀔 수 있고, SLA(서비스 수준 협약) 보장이 GA 모델보다 낮습니다. 프로덕션 서비스에 바로 붙이기 전에는 이 부분을 확인해야 합니다.

⚠️ 확인 필요: Preview 모델의 정확한 SLA 조건은 Google Cloud 공식 서비스 약관에서 확인하세요. GA 전환 시점은 공식 발표 전까지 미정입니다.

▲ 목차로 돌아가기

에이전트 작업에서 막히는 단계

구글이 3.1 Pro를 가장 강조하는 활용 방향은 에이전틱 워크플로우입니다. 그런데 Artificial Analysis의 GDPval-AA(실세계 에이전트 평가) 데이터를 보면 이야기가 다릅니다. 3.1 Pro의 ELO 점수는 1316으로 Gemini 3 Pro 대비 100점 이상 올랐지만, Claude Sonnet 4.6, Claude Opus 4.6, GPT-5.2(xhigh), GLM-5보다 낮습니다. (출처: Artificial Analysis, clien.net 번역, 2026.02.19)

Reddit의 실사용자 피드백(2026.02.21)에는 이런 표현이 등장했습니다. “에이전트로 쓰면 계획 단계에서 토큰을 과도하게 소모한다. 외부 API 호출 중 흐름이 끊기는 경우가 있다.” 이는 벤치마크가 측정하는 시나리오와 실제 자동화 작업에서의 경험 사이 간극입니다. 에이전트 능력의 실전 기준인 OSWorld 지표에서는 GPT-5.4가 75%, Claude Sonnet 4.6이 72.5%를 기록했으며 Gemini 3.1 Pro의 OSWorld 수치는 공개되지 않았습니다. (출처: blog.kwt.co.kr 비교표)

💡 구글 스스로 공식 발표에서 “에이전틱 워크플로우에서 추가 개선이 필요하다”고 명시했습니다. 이 문장이 Preview 상태를 유지하는 이유와 연결됩니다. (출처: blog.google/intl/ko-kr, 2026.02.19)

▲ 목차로 돌아가기

실제로 써야 하는 경우와 그렇지 않은 경우

데이터를 전부 놓고 봤을 때 정리되는 결론은 이렇습니다. Gemini 3.1 Pro는 “복잡한 추론 + 과학적 지식 + 멀티모달 이해”가 동시에 필요한 작업에서 현재 가장 강력한 공개 모델입니다. GPQA Diamond 94.3%, CritPt(연구 수준 물리학) 18%로 차순위 모델보다 5%p 이상 높습니다. 연구, 데이터 분석, 복잡한 시스템 설계 초안을 뽑는 데는 쓸 이유가 충분합니다.

반면 지금 당장 프로덕션 코딩 파이프라인에 붙이려 한다면 더 확인해야 할 사항이 있습니다. SWE-bench 공개 수치가 없고, 에이전트 평가에서도 Claude Sonnet 4.6(OSWorld 72.5%, ELO 우위)이나 GPT-5.4(OSWorld 75%, 네이티브 컴퓨터 사용)보다 실세계 지표가 낮습니다. 코딩 비용을 최소화하면서 안정적인 품질이 필요하다면 Gemini 3 Flash($0.30/1M)가 코딩 벤치마크에서 SWE-bench 78%라는 실측치를 이미 갖고 있습니다.

✅ 3.1 Pro가 유리한 경우

과학·연구 추론 작업
멀티모달 복합 분석
복잡한 시스템 설계 초안
PhD급 지식 기반 Q&A

⚠️ 대안 검토 필요 경우

프로덕션 코딩 파이프라인
장기 자율 에이전트 작업
컴퓨터 직접 조작 자동화
GA 수준 SLA가 필요한 서비스

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Gemini 3.1 Pro를 무료로 쓸 수 있나요?

Google AI Studio에서 프리뷰 버전을 무료로 체험할 수 있습니다. 다만 일일 사용 한도가 있으며, Gemini 앱에서는 Google AI Pro($19.99/월) 또는 Ultra($249.99/월) 플랜 구독자에게만 상향된 한도로 제공됩니다. (출처: Google 공식 블로그, 2026.02.19)

Gemini 3.1 Pro와 3 Flash 중 코딩은 어느 쪽이 낫나요?

공개된 SWE-bench 수치만 보면 Gemini 3 Flash(78%)가 실전 코딩에서 더 많이 검증됐습니다. Gemini 3.1 Pro의 SWE-bench 수치는 현재 공식적으로 공개되지 않았습니다. 비용도 3 Flash가 $0.30/1M으로 10배 이상 저렴합니다. 단, 연구 수준의 SciCode(59%) 같은 고난도 코딩에서는 3.1 Pro가 1위를 기록했습니다.

ARC-AGI-2가 중요한 이유가 뭔가요?

ARC-AGI-2는 모델이 기존에 학습한 패턴이 아닌 완전히 새로운 논리 문제를 얼마나 잘 풀 수 있는지를 측정합니다. 암기나 패턴 매칭이 아닌 “진짜 추론” 능력의 지표로 여겨집니다. 3.1 Pro의 77.1%는 현재 공개 모델 중 가장 높은 수치이며, 이 점수가 이번 발표의 핵심 근거입니다. (출처: Google 공식 블로그, 2026.02.19)

한국어 서비스는 어떻게 되나요?

Gemini 3.1 Pro는 한국을 포함한 전 세계 사용자에게 순차 배포됩니다. Gemini 앱에서는 Pro/Ultra 플랜 구독자에게 제공되며, API는 Google AI Studio 및 Vertex AI를 통해 한국에서도 이용 가능합니다. 다만 특정 기능의 지역 제한 여부는 공식 지원 지역 문서에서 확인이 필요합니다. (출처: ai.google.dev/gemini-api/docs/available-regions)

Google AI Pro 구독이면 3.1 Pro를 제한 없이 쓸 수 있나요?

제한 없이는 아닙니다. Google AI Pro($19.99/월)는 일일 에이전트 요청 200개 한도가 있으며, 3.1 Pro는 상향된 사용 한도로 제공된다고 밝혔지만 구체적인 수치는 공식적으로 확정 공개되지 않았습니다. Ultra($249.99/월)는 더 높은 한도를 제공합니다. (출처: support.google.com/gemini, 2026 기준)

▲ 목차로 돌아가기

마치며 — 총평

Gemini 3.1 Pro는 분명히 올라온 모델입니다. ARC-AGI-2 77.1%, GPQA Diamond 94.3%, 환각 38%p 감소, 비용 효율성까지 — 추론과 지식 분야에서는 현재 공개 모델 중 가장 강력한 수치를 쥐고 있습니다.

그런데 이 모델을 선택해야 하는지의 기준은 “어떤 작업에 쓰느냐”입니다. 연구 추론, 데이터 분석, 복잡한 멀티모달 작업이라면 지금 써볼 이유가 충분합니다. 반면 코딩 파이프라인이나 자율 에이전트 작업이라면 Claude Sonnet 4.6이나 GPT-5.4의 공개된 실전 수치와 먼저 비교하는 편이 맞습니다.

무엇보다 지금은 Preview입니다. 구글이 GA 전환과 함께 에이전트 성능을 추가로 개선하겠다고 공언한 만큼, 3.1 Pro의 진짜 판단은 GA 이후가 될 것 같습니다. 지금 당장은 Google AI Studio에서 무료로 직접 써보는 것이 가장 정직한 답입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Google 공식 블로그(한국어) — 제미나이 3.1 프로 출시 발표 (blog.google/intl/ko-kr)
Google AI for Developers — Gemini API Changelog (ai.google.dev/gemini-api/docs/changelog)
Artificial Analysis — Gemini 3.1 Pro Preview 지능 지수 분석 (clien.net 한국어 번역본, 2026.02.19)
blog.kwt.co.kr — 2026년 3월 주요 LLM 비교: GPT-5.4 vs Claude 4.6 vs Gemini 3 (2026.03.10)
Google Cloud — Vertex AI Gemini 3.1 Pro 공식 문서 (docs.cloud.google.com)

본 포스팅은 2026년 2월 19일 기준 공개된 공식 자료를 바탕으로 작성됐습니다.
API 가격은 Google AI Studio 기준이며 Vertex AI는 별도 요금이 적용될 수 있습니다. 최신 정보는 공식 사이트에서 확인하세요.

Gemini 3.1 Pro, 추론 1위면 코딩도 1위일까요?

Gemini 3.1 Pro, 추론 1위면 코딩도 1위일까요?

벤치마크 숫자가 전부일까요?

코딩에서 예상과 달랐던 지점

비용이 절반이라는 말의 실제 맥락

Preview 상태가 의미하는 것

에이전트 작업에서 막히는 단계

실제로 써야 하는 경우와 그렇지 않은 경우

자주 묻는 질문 Q&A

마치며 — 총평

📚 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Pro, 추론 1위면 코딩도 1위일까요?

벤치마크 숫자가 전부일까요?

코딩에서 예상과 달랐던 지점

비용이 절반이라는 말의 실제 맥락

Preview 상태가 의미하는 것

에이전트 작업에서 막히는 단계

실제로 써야 하는 경우와 그렇지 않은 경우

자주 묻는 질문 Q&A

마치며 — 총평

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기