Preview 버전
Gemini 3 시리즈
Gemini 3.1 Pro, 1위라는 말이 반만 맞는 이유
벤치마크 점수는 역대 최고입니다. 그런데 막상 실무에서 쓰려고 하면 이야기가 달라집니다. 구글이 공개한 공식 수치 두 가지를 같이 놓고 보면, 지금까지 나온 설명들이 절반은 빠뜨리고 있다는 걸 알 수 있습니다.
Gemini 3.1 Pro가 뭔지 먼저 짚고 가야 합니다
2026년 2월 19일, 구글이 Gemini 3.1 Pro를 공개했습니다. 이름만 보면 3.0의 소소한 점진 업데이트처럼 보이지만, 구글 딥마인드(Google DeepMind)의 공식 모델 카드에는 “Gemini 3 시리즈를 기반으로 핵심 추론 능력을 비약적으로 발전시켰다”고 명시돼 있습니다. 실제 벤치마크 수치를 보면 그 표현이 과장이 아님을 확인할 수 있습니다.
출시 직후 기준으로 3.1 Pro는 Artificial Analysis 인텔리전스 인덱스에서 57점을 기록해 Claude Opus 4.6(53점)과 GPT-5.2(51점)를 제치고 1위에 올랐습니다. 18개 추적 벤치마크 중 12개에서 1위입니다. 모델 아키텍처는 Gemini 3 Pro를 그대로 기반으로 하되, 추론 방식에서 핵심적인 변화가 있었습니다. 구글이 ‘잠재적 추론(latent reasoning)’ 방식 — 즉 최종 답변 전에 숨겨진 사고 과정을 생성하는 구조 — 을 강화하면서 추상적 논리 문제에서 성능이 폭발적으로 올랐습니다.
모델 스펙을 보면, 입력 컨텍스트 창은 100만(1M) 토큰을 유지하고 출력 한도가 64K 토큰으로 대폭 늘었습니다. 현재는 프리뷰(Preview) 버전으로 배포됐고, 구글 AI 스튜디오(Google AI Studio), 안티그래비티(Antigravity), Vertex AI, Gemini 앱, NotebookLM 등에서 접근 가능합니다. (출처: Google DeepMind 공식 모델 카드, 2026.02.19)
ARC-AGI-2 77.1%, 수치가 의미하는 것과 의미하지 않는 것
ARC-AGI-2는 “완전히 새로운 논리 패턴을 푸는 능력”을 측정하는 벤치마크입니다. 훈련 데이터에 없는 패턴을 얼마나 잘 풀어내느냐를 보는 것으로, AI의 일반 추론 능력을 평가하는 가장 까다로운 기준 중 하나입니다. 구글의 공식 발표에 따르면 Gemini 3.1 Pro는 여기서 77.1%를 기록했습니다.
💡 공식 발표문과 경쟁사 수치를 같이 놓고 보니 이 격차가 얼마나 큰지 실감됩니다
불과 3개월 전 Gemini 3 Pro가 31.1%였습니다. 그리고 Claude Opus 4.6는 68.8%, GPT-5.2는 52.9%입니다. 6개월 전 Grok 4가 16.0%로 화제가 됐던 것을 생각하면, 77.1%는 단순한 1위가 아니라 이 벤치마크에서 처음으로 ‘두드러진 격차’가 생긴 수준입니다. (출처: Google DeepMind 공식 모델 카드, 2026.02.19)
그런데 이 수치가 의미하지 않는 것도 있습니다. ARC-AGI-2는 추상적·논리적 문제 해결 능력을 봅니다. 보고서 쓰기, 데이터 분석, 발표 자료 만들기 같은 일상 업무 능력과는 측정 항목 자체가 다릅니다. 벤치마크 점수가 높다고 해서 내 업무에 바로 유용하다는 뜻은 아닙니다. 이 점을 뒤에서 구체적 수치로 살펴봅니다.
다만 GPQA Diamond(박사 수준 과학 지식)에서 94.3%를 기록한 점은 별도로 주목할 만합니다. Opus 4.6(91.3%), GPT-5.2(92.4%)와 비교해도 가장 높고, 이건 학술·연구·엔지니어링 분야에서 직접 쓸 수 있는 수치입니다. (출처: Google DeepMind 공식 모델 카드, 2026.02.19)
할루시네이션 38%p 감소가 더 중요한 이유
이번 업데이트에서 벤치마크 1위보다 실제 사용 관점에서 더 의미 있는 변화가 있습니다. Artificial Analysis의 AA-Omniscience 벤치마크에서 Gemini 3.1 Pro의 할루시네이션 발생률이 Gemini 3 Pro 프리뷰 대비 88%에서 50%로 38%p 떨어졌습니다. 할루시네이션 저항 점수(Hallucination Resistance Score)는 30으로, 2위 모델(13점)의 두 배 이상입니다. (출처: Towards AI 뉴스레터 #193, 2026.02.24)
💡 수치를 보고 나니 “왜 이전 Gemini는 사실 검색 용도로 신뢰하기 어렵다”는 말이 이해됐습니다
3 Pro 프리뷰 시절 할루시네이션이 88%였다는 건, 사실 기반 작업에서 열 번 중 여덟 번 이상 틀린 정보를 만들어낼 수 있었다는 뜻입니다. 50%도 낮진 않지만, 할루시네이션 저항 점수가 경쟁 모델 대비 2배 이상이라는 건 이 영역에서 의미 있는 격차입니다.
이전에 Gemini 계열을 리서치나 팩트체크 목적으로 쓰기 어려웠던 분들이라면, 3.1 Pro에서 실질적인 차이를 느낄 수 있는 부분입니다. 물론 여전히 절대값으로 보면 “50%가 아직도 높은 수치 아닌가”라는 의문이 드는 게 맞고, 구글 역시 이 부분에서 별도 개선 방향을 공식 발표에서 밝히지 않았습니다.
실무에서 Gemini 3.1 Pro가 밀리는 영역이 있습니다
솔직히 말하면, 벤치마크 1위라는 타이틀이 전부가 아닙니다. GDPval-AA는 44개 직종의 실제 화이트칼라 업무 — 보고서 작성, 데이터 분석, 커뮤니케이션, 발표 자료 제작 — 를 기준으로 모델을 평가합니다. 여기서 Gemini 3.1 Pro의 Elo 점수는 1317입니다. Claude Sonnet 4.6이 1633, Opus 4.6이 1606, GPT-5.2가 1462입니다. Gemini가 꼴찌입니다. Sonnet 4.6 대비 316점 차이입니다. (출처: Google DeepMind 공식 모델 카드, 2026.02.19)
| 모델 | ARC-AGI-2 | GDPval-AA (실무) | GPQA Diamond |
|---|---|---|---|
| Gemini 3.1 Pro | 77.1% 🥇 | 1317 🔴 | 94.3% 🥇 |
| Claude Opus 4.6 | 68.8% | 1606 | 91.3% |
| Claude Sonnet 4.6 | 58.3% | 1633 🥇 | 89.9% |
| GPT-5.2 | 52.9% | 1462 | 92.4% |
(출처: Google DeepMind 공식 모델 카드, 2026.02.19)
이게 의아한 이유는 이렇습니다. 추상적 논리 문제(ARC-AGI-2)에서 1위를 한 모델이 실무 지식 작업에서 꼴찌라는 건, 두 가지가 완전히 다른 능력을 측정하고 있다는 뜻입니다. ARC-AGI-2는 새로운 패턴을 푸는 능력, GDPval-AA는 44개 직종의 실용적 작업 능력입니다. 가장 ‘영리한’ 모델이 가장 ‘유용한’ 모델은 아닙니다.
앱 수준의 도구 격차도 있습니다. Claude는 .pptx, .xlsx, .docx 파일을 직접 만들어 줍니다. OpenAI는 Codex 에이전트와 Canvas를 갖추고 있습니다. Gemini 앱은 여전히 텍스트·이미지·음악 생성 중심입니다. 데이터셋을 넘기고 스프레드시트를 받는 것, 슬라이드 덱을 만드는 것, 바탕화면을 가리키며 “이것 정리해줘”라고 요청하는 것 — 이것들이 아직 됩니다. 구글의 Antigravity가 이 격차를 메우려는 시도지만, 현재로선 시스템 프롬프트 유출, 무한 루프, 다중 문서 업로드 시 컨텍스트 초기화 같은 버그가 보고되고 있습니다.
요금제별 실제 사용 한도 — 무료도 됩니다, 조건이 있습니다
9to5Google이 2026년 3월 17일 업데이트한 공식 요금제 비교 기준으로 정리했습니다. 구글 무료 계정에서도 Gemini 3.1 Pro를 쓸 수 있습니다. 다만 “기본 접근 — 일일 한도가 수시로 변경될 수 있음(Basic access – daily limits may change frequently)”이라는 단서가 붙습니다. 한도가 고정되지 않아 하루에 몇 번 쓸 수 있는지 보장이 없습니다.
| 요금제 | 월 요금 (미국) | 3.1 Pro 한도 | 컨텍스트 창 |
|---|---|---|---|
| 무료 | $0 | 기본 (변동 가능) | 32K 토큰 |
| AI Plus | 미공개 | 30회 / 일 | 128K 토큰 |
| AI Pro | $19.99 | 100회 / 일 | 1M 토큰 |
| AI Ultra | $249.99 | 500회 / 일 | 1M 토큰 |
(출처: 9to5Google, 2026.03.17 기준)
무료 플랜의 컨텍스트 창이 32K 토큰으로 제한된다는 점이 핵심입니다. 1M 토큰 컨텍스트가 Gemini 3.1 Pro의 강점 중 하나인데, 이걸 쓰려면 AI Pro($19.99/월) 이상이 필요합니다. 단순히 “무료로 쓸 수 있다”는 말은 절반만 맞는 얘기입니다.
NotebookLM은 별도입니다. Pro와 Ultra 구독자만 NotebookLM에서 3.1 Pro를 쓸 수 있고, 무료 사용자는 NotebookLM에서 이 모델을 접근할 수 없습니다. 개발자라면 Google AI Studio를 통한 API 접근이 현재 가장 자유롭습니다.
출력 한도 3배 증가가 코딩 실무에서 의미하는 것
Gemini 3.1 Pro의 출력 토큰 한도는 64K입니다. 이전 Gemini 3 Pro에서는 약 21K 토큰에서 강제로 잘렸습니다. 이번에 55K 이상의 연속 출력이 검증됐습니다. 출력이 중간에 잘리는 문제가 코딩 작업에서 치명적이었는데, 이게 해결됐습니다. (출처: Towards AI 뉴스레터 #193, 2026.02.24)
💡 출력 한도가 단순 스펙 숫자가 아닌 이유 — 실제 코딩 흐름과 직결됩니다
파일 하나를 리팩토링하는 코드가 2만5천 줄이 넘을 때, Gemini 3 Pro는 중간에 잘라버렸습니다. 개발자들은 이 때문에 작업을 여러 번 나누거나 결과물을 이어 붙여야 했습니다. 64K로 늘어난 지금은 그 작업 대부분이 한 번에 됩니다. LiveCodeBench Pro에서 Elo 2887을 기록한 배경에 이 변화가 있습니다.
SWE-Bench Verified(실제 GitHub 이슈 해결)에서는 80.6%를 기록했습니다. Opus 4.6(80.8%), GPT-5.2(80.0%)와 사실상 동등합니다. SVG Arena에서는 Elo 1421로 Opus 4.6(1326)보다 95점 높습니다. 코드 기반 애니메이션, 프론트엔드 시각화, 인터랙티브 인터페이스 프로토타이핑에서 현재 가장 강한 모델입니다. (출처: Google DeepMind 공식 모델 카드 / Towards AI 뉴스레터 #193, 2026.02.24)
반면 실제 코딩 개발 경험(DX)은 아직 Claude Code나 Codex 쪽이 낫다는 평가가 많습니다. 구글의 Gemini CLI가 있지만, AI Studio에서 높은 추론 설정으로 쓸 때와 앱에서 쓸 때 결과 품질 차이가 체감된다는 보고가 개발자 커뮤니티에서 꾸준히 나옵니다. 같은 프롬프트를 API와 앱에서 각각 실행해보면 차이가 납니다. 구글이 아직 공식 답변을 내놓지 않은 부분입니다.
Q&A — 자주 나오는 질문 5가지
Q1. Gemini 3.1 Pro는 지금 정식 출시된 건가요, 프리뷰인가요?
2026년 2월 19일 기준 프리뷰(Preview) 버전입니다. 구글은 에이전틱 워크플로우 환경에서의 성능 검증을 이유로 정식 출시 전에 프리뷰로 배포하고 있습니다. 구글 AI 스튜디오와 Vertex AI에서 gemini-3.1-pro-preview 모델 ID로 접근 가능합니다. 구글 AI 스튜디오에서 Gemini 3 Pro Preview는 2026년 3월 9일부로 중단됐습니다.
Q2. API 가격은 얼마인가요?
Towards AI 기준으로 $2/$12(입력/출력 각 100만 토큰당)입니다. Claude Opus 4.6의 절반 수준입니다. 가격은 Gemini 3 Pro와 동일하게 유지됐습니다. 단, API 가격은 변경될 수 있으므로 현재 적용 가격은 Google AI Studio 공식 페이지에서 확인하는 게 정확합니다.
Q3. 무료 플랜에서도 1M 토큰 컨텍스트를 쓸 수 있나요?
쓸 수 없습니다. 무료 플랜의 컨텍스트 창은 32K 토큰(약 50페이지 분량)으로 제한됩니다. 1M 토큰 컨텍스트를 사용하려면 Google AI Pro($19.99/월, 미국 기준) 이상 구독이 필요합니다. (출처: 9to5Google, 2026.03.17 기준)
Q4. Gemini 앱과 AI Studio에서 결과 품질이 다르다는 게 사실인가요?
개발자 커뮤니티에서 동일 프롬프트를 AI Studio와 Gemini 앱에서 각각 실행했을 때 AI Studio 결과가 더 낫다는 보고가 반복적으로 나옵니다. 구글이 두 환경 간 차이가 발생하는 이유를 공식적으로 밝히지 않았습니다. $250/월짜리 Ultra 구독자에게도 앱 경험이 API 대비 약하다는 점은 유료 티어 가치 논쟁으로 이어지고 있습니다.
Q5. 이미지 이해와 코딩 중 어느 쪽에 더 강한가요?
둘 다 강하지만 방향이 다릅니다. 비전(이미지 이해)에서는 LMSYS 리더보드에서 Gemini 계열이 상위 3위를 독점할 정도로 현재 최강입니다. 코딩에서는 SVG·프론트엔드 시각화 분야에서 1위이고, SWE-Bench Verified에서는 80.6%로 Opus 4.6(80.8%)과 동급입니다. 단, 실제 코딩 개발 환경(DX) 편의성은 Claude Code, Codex 대비 아직 개선 중입니다.
마치며
Gemini 3.1 Pro는 지금까지 나온 AI 모델 중 벤치마크 기준으로 가장 높은 추론 점수를 가진 모델입니다. ARC-AGI-2 77.1%, GPQA Diamond 94.3%, 할루시네이션 저항 점수 30 — 이 수치들은 공식 문서로 검증됩니다. 이미지 이해와 SVG 코딩에서는 현재 업계 최고 수준입니다.
그런데 막상 일상 업무에서 쓰면 다른 그림이 나옵니다. 실무 화이트칼라 작업(GDPval-AA)에서는 Claude Sonnet 4.6에 300점 이상 뒤처집니다. 앱은 여전히 채팅 인터페이스 수준이고, Antigravity는 아직 완성도가 낮습니다. 가장 똑똑한 엔진을 가졌지만 그걸 쓸 수 있는 도구가 경쟁사 대비 부족합니다.
정리하면 이렇습니다. 이미지 분석, 장문 리서치, 학술·과학 작업, SVG·프론트엔드 코딩이라면 Gemini 3.1 Pro가 현재 최선입니다. 보고서 쓰고 스프레드시트 만들고 슬라이드 완성하는 실무 작업이라면 아직은 Claude나 GPT-5.2 쪽이 낫습니다. 쓰임새를 먼저 정하고 모델을 고르는 게 맞습니다.
📚 본 포스팅 참고 자료
- Google DeepMind 공식 모델 카드 — deepmind.google/models/model-cards/gemini-3-1-pro/
- Google 공식 블로그 — Gemini 3.1 Pro 출시 발표 (2026.02.19) — blog.google
- 구글 공식 한국어 블로그 — 제미나이 3.1 프로 (2026.02.19) — blog.google (한국어)
- Towards AI 뉴스레터 #193 — Gemini 3.1 Pro 분석 (2026.02.24) — newsletter.towardsai.net
- 9to5Google — Google AI Pro/Ultra 기능 정리 (2026.03.17) — 9to5google.com
⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 요금제 정보는 2026년 3월 23일 기준이며, Google의 공식 업데이트에 따라 달라질 수 있습니다. 최신 정보는 Google DeepMind 공식 모델 카드 및 Gemini 공식 지원 페이지에서 확인하세요.


댓글 남기기