Gemini 3.1 Pro 4가지, 공식 문서에서 직접 확인했습니다

magister

Published on

2026년 3월 22일

IT/AI

2026.02.19 출시 기준 / Gemini 3.1 Pro Preview

벤치마크에서 GPT-5.4와 공동 1위를 찍었습니다. 그런데 실무 에이전트 순위에서는 이미 4위 밖으로 밀려나 있습니다. 공식 수치를 직접 놓고 보면 “당연히 이렇겠지”와 꽤 다른 그림이 나옵니다.

ARC-AGI-2 점수

77.1%

이전 버전(약 35%) 대비 2배↑

API 출력 가격

$12/1M

Claude Opus 4.6 대비 1/6 수준

할루시네이션 감소

88% → 50%

AA-Omniscience 기준(공식)

벤치마크 1위, 그런데 실무 에이전트에서는 4위 밖

구글이 2026년 2월 19일 공개한 Gemini 3.1 Pro는 Artificial Analysis Intelligence Index에서 GPT-5.4와 공동 1위(57점)를 기록했습니다. (출처: Artificial Analysis, 2026.02.19) 이 지수는 코딩, 과학 추론, 지식, 멀티모달 이해 등 10개 항목을 종합한 수치입니다.

그런데 같은 보고서를 조금 더 들여다보면 얘기가 달라집니다. 실제 업무 자동화 능력을 평가하는 GDPval-AA(에이전트 실무 작업 지수)에서 Gemini 3.1 Pro의 ELO 점수는 1,317입니다. Claude Sonnet 4.6, Opus 4.6, GPT-5.2(xhigh), GLM-5가 모두 이보다 위에 있습니다.

💡 공식 분석 보고서와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 벤치마크 종합 1위 모델이 “실무에서 AI에게 일을 맡기는” 에이전트 영역에서는 상위 4위 안에도 들지 못합니다. 벤치마크 점수가 곧 업무 자동화 성능을 보장하지 않는다는 뜻입니다.

구글도 공식 클라우드 블로그에서 이 부분을 솔직하게 밝혔습니다. “Gemini 3.1 Pro Preview는 GDPval-AA에서 개선을 보이지만 이 영역에서 선두 모델은 아닙니다(not the leading model in this area).” (출처: Google Cloud 공식 블로그, 2026.02.19) 이전 버전보다 ELO가 100포인트 이상 올랐어도, 경쟁 모델들이 더 빠르게 치고 올라간 겁니다.

▲ 목차로 돌아가기

200만 토큰 컨텍스트 — 숫자 그대로 믿으면 비용이 달라집니다

공식 API 스펙을 직접 확인하면 입력 컨텍스트 한도는 1,048,576 토큰(약 100만)입니다. (출처: Google AI Studio / Gemini API 공식 문서, 2026.02.19 기준) 200만 토큰은 Gemini 앱 서비스 레벨에서 지원하는 수치로, API 개발 환경에서는 현재 100만 토큰이 상한입니다.

💡 광고에서 자주 보이는 “200만 토큰”과 API를 직접 쓸 때의 실제 한도가 다릅니다. 서비스 구현을 위해 API를 쓴다면 100만 토큰 기준으로 설계해야 합니다.

여기서 끝이 아닙니다. API 가격은 컨텍스트 길이에 따라 두 단계로 나뉩니다. 입력이 200K 토큰 이하이면 입력 $2.00, 출력 $12.00(1M 토큰 기준)입니다. 그런데 200K 토큰을 초과하는 순간 입력 $4.00, 출력 $18.00으로 뛰어오릅니다. (출처: Gemini API 공식 가격표, 2026.02 기준) 입력 비용이 2배, 출력 비용이 50% 오르는 구조입니다.

실제 계산을 해보면 차이가 큽니다. 책 한 권 분량인 약 300K 토큰짜리 문서를 매일 10회 처리한다고 가정하면, 200K 이하 구간($4.00/1M) 기준으로 월간 약 $36이지만 200K 초과 구간($4.00/1M 입력 + 처리 부하)에서는 실제 청구가 월 $50~72 수준으로 올라갑니다. 컨텍스트를 200K 이하로 조각내는 것이 비용 면에서 유리한 이유입니다.

▲ 목차로 돌아가기

Thinking Level 3단계, 어떤 단계를 쓰느냐가 청구서를 바꿉니다

Thinking Level	적합한 작업	토큰 소비	속도
LOW	요약, 번역, 간단한 Q&A	적음	빠름
MEDIUM (신규)	코딩, 중간 복잡도 분석	중간	중간
HIGH	수학 증명, 물리 문제, 심층 추론	많음	느림

Thinking 토큰은 출력 토큰으로 과금됩니다. HIGH를 기본으로 두면 응답 하나에 수천~수만 토큰이 추가로 청구될 수 있습니다. JetBrains의 AI 디렉터가 공식 언급한 것처럼 “더 적은 출력 토큰으로 신뢰할 수 있는 결과를 냈다”는 평가가 나오는 건 MEDIUM을 적극 활용했을 때 이야기입니다. (출처: Google Cloud 공식 블로그, JetBrains 평가 인용, 2026.02.19)

간단한 작업에 HIGH를 쓰는 건 3,000원짜리 커피를 배달 앱 프리미엄으로 주문하는 것과 비슷합니다. 작업 성격에 맞는 단계 선택이 비용을 실질적으로 좌우합니다.

▲ 목차로 돌아가기

두 모델이 AA Intelligence Index에서 공동 57점이라는 사실은 맞지만, 세부 항목에서 완전히 다른 그림이 나옵니다. (출처: Artificial Analysis, 2026.03 기준)

항목	Gemini 3.1 Pro	GPT-5.4
종합 지능 지수(AA)	57 (공동 1위)	57 (공동 1위)
에이전트 실무(GDPval ELO)	1,317 (4위↓)	상위권
컴퓨터 직접 제어(OSWorld)	미지원(공식)	75.0% (인간 기준선 72.4% 초과)
입력 컨텍스트	100만 토큰(API 기준)	105만 토큰
과학 추론(GPQA Diamond)	94.3%	92.4%
물리 추론(CritPt)	18% (5위 이상 격차)	낮음
API 출력 가격	$12/1M	$15~30/1M (플랜별 상이)

수치를 직접 늘어놓으면 선택 기준이 선명해집니다. 반복 업무 자동화·RPA 수준의 에이전트 구현이 목적이라면 GPT-5.4가 현재 더 앞서 있습니다. 반면 연구 논문 검토, 과학·수학 기반 추론, 멀티모달 문서 분석처럼 “깊이 생각해야 하는” 작업이라면 Gemini 3.1 Pro가 비용 대비 우위입니다. 두 모델이 공동 1위인 건 맞지만, 어디에 쓰느냐에 따라 전혀 다른 결과가 나옵니다.

▲ 목차로 돌아가기

할루시네이션 50%로 줄었다는 수치, 해석이 필요합니다

💡 공개된 벤치마크 방법론과 실제 사용 조건을 같이 보면 보이지 않던 맥락이 드러납니다 — “할루시네이션 88%→50%”는 모르는 질문에서도 자신 있게 틀린 답을 내놓는 비율의 감소입니다. 여전히 50%가 남아 있다는 얘기이기도 합니다.

AA-Omniscience는 AI가 답을 모를 때 “모른다”고 하는 대신 틀린 답을 자신 있게 내놓는 비율을 측정합니다. Gemini 3.1 Pro의 경우 이 비율이 88%에서 50%로 낮아졌다는 건, 이제 모르는 질문 두 개 중 한 개에서는 여전히 잘못된 답을 확신하며 제시할 수 있다는 의미입니다.

실제로 Reddit의 GeminiAI 서브레딧(2026.03.13 기준)에는 “컨텍스트 창이 길어질수록 과도한 필러 언어와 일관성 없는 응답이 늘어난다”는 개발자 보고가 공식 구글 AI 개발자 포럼에도 등록돼 있습니다(출처: discuss.ai.google.dev, 2026.03.09). 할루시네이션 개선이 진짜인 건 맞지만, 고신뢰 자동화 파이프라인에서는 여전히 출력 검증 단계가 필요합니다.

▲ 목차로 돌아가기

어떤 상황에서 Gemini 3.1 Pro가 맞는 선택인가

여기까지 확인한 수치를 종합하면 Gemini 3.1 Pro가 실질적으로 강점을 발휘하는 조건이 꽤 뚜렷해집니다.

✅ Gemini 3.1 Pro가 유리한 상황

과학 논문, 법률 문서, 기술 사양서처럼 깊은 추론이 필요한 장문 문서 분석
Google Workspace(Docs, Sheets, Gmail) 데이터와 연동하는 구글 생태계 중심 워크플로우
API 비용을 줄여야 하는 프로젝트 — Claude Opus 4.6 대비 출력 기준 6배 저렴
멀티모달 이해가 필요한 이미지·비디오·오디오 복합 입력 처리
Gemini CLI, Android Studio, Google Antigravity와 통합하는 구글 개발 도구 기반 코딩

⚠️ 다른 모델을 함께 검토해야 하는 상황

화면 조작, 다단계 자동화처럼 에이전트가 스스로 실행해야 하는 워크플로우 → GPT-5.4 우위
소프트웨어 엔지니어링 실무(SWE-bench 기준) → Claude Sonnet 4.6, Opus 4.6 우위
고신뢰 자동화 파이프라인 — 할루시네이션 여전히 50% 수준이므로 검증 단계 필수

한 가지 더 확인할 점이 있습니다. Gemini 3.1 Pro는 현재 프리뷰(preview) 상태입니다. 정식 GA 전환 이후 가격이나 한도가 달라질 수 있으며, 구글이 별도 발표를 하지 않은 부분입니다. 서비스 구현 전에 공식 변경 사항을 재확인하는 것이 안전합니다.

▲ 목차로 돌아가기

Q&A

▶ Gemini 3.1 Pro는 무료로 사용할 수 있나요?

Google AI Studio에서 API 키를 발급받으면 무료 티어로 사용 가능합니다. 단, 분당 요청 수(RPM)와 일일 요청 한도가 제한됩니다. Gemini 앱에서 3.1 Pro를 사용하려면 Google AI Pro 또는 Ultra 플랜 구독이 필요합니다. (출처: Google AI Studio 공식, 2026.02 기준)

▶ ARC-AGI-2 벤치마크 77.1%가 실제 사용에서 어떤 의미인가요?

ARC-AGI-2는 AI가 학습한 적 없는 새로운 논리 패턴을 푸는 테스트입니다. 77.1%는 이전 버전(약 35%) 대비 2배 이상 향상된 수치로, “처음 보는 문제”에 대한 유연한 추론 능력을 나타냅니다. 다만 이 점수가 높다고 실무 에이전트 작업 성능이 자동으로 높은 건 아닙니다. 벤치마크 종류마다 측정하는 능력이 다릅니다. (출처: Google 공식 블로그, 2026.02.19)

▶ Gemini 3.1 Pro와 Claude Opus 4.6을 API로 비교하면 비용 차이가 얼마나 되나요?

출력 가격 기준으로 Gemini 3.1 Pro는 $12/1M 토큰, Claude Opus 4.6은 $75/1M 토큰입니다. 동일 토큰 사용 시 약 6.25배 차이가 납니다. 단, 컨텍스트가 200K 토큰을 초과하면 Gemini 3.1 Pro의 출력 가격도 $18/1M으로 올라가므로 실제 작업 설계 시 구간을 고려해야 합니다. (출처: Gemini API 공식 가격표, 2026.02 기준)

▶ Batch API 50% 할인은 어떤 조건에서 적용되나요?

▶ Gemini 3.1 Pro가 한국어 처리에서 어떤 수준인가요?

구글이 한국어 전용 벤치마크를 별도로 공개하지 않아 공식 수치로 직접 비교하기 어렵습니다. 실사용 커뮤니티에서는 영어 대비 한국어 출력의 세밀함이 다소 떨어진다는 의견이 있으며, 특히 긴 컨텍스트에서 한국어 문장 흐름이 끊기는 사례가 보고됩니다. 한국어 업무 자동화에 도입하기 전 실제 작업 유형으로 직접 테스트하는 것이 권장됩니다.

▲ 목차로 돌아가기

마치며

실무 에이전트 순위는 4위 밖이고, 200만 토큰은 API에서 100만이며, 200K 초과 시 비용이 두 배로 뛰고, 할루시네이션은 여전히 50% 수준입니다. 이 수치들을 모른 채로 도입을 결정하면 나중에 맞닥뜨릴 제약이 커집니다.

솔직히 말하면, 과학·연구·기술 문서 분야에서 비용 효율을 따진다면 지금 시장에서 Gemini 3.1 Pro만큼 가성비 있는 선택이 많지 않습니다. 다만 에이전트 자동화나 고신뢰 파이프라인을 설계한다면 공식 수치를 한 번 더 들여다보고 결정하는 편이 낫습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

구글 공식 블로그 — 제미나이 3.1 프로 출시 발표 (2026.02.19)
https://blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/
Google Cloud 공식 블로그 — Gemini 3.1 Pro on Vertex AI & Enterprise (2026.02.19)
https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-pro-on-gemini-cli-gemini-enterprise-and-vertex-ai
Artificial Analysis — Gemini 3.1 Pro Preview: New Leader in AI (2026.02.19)
https://artificialanalysis.ai/articles/gemini-3-1-pro-preview-new-leader-in-ai
Google AI Developers 포럼 — Gemini 3.1 Pro excessive filler language report (2026.03.09)
https://discuss.ai.google.dev/t/gemini-3-1-pro-generates-excessive-filler-language/129840

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Pro는 현재 프리뷰(preview) 상태이며, 정식 GA 전환 시 가격·스펙이 달라질 수 있습니다. 본문의 모든 수치는 2026년 2월~3월 공개 자료 기준이며, 최신 정보는 공식 문서에서 재확인하시기 바랍니다.

AI 모델 비교, ARC-AGI-2, 구글 AI 2026, 구글 딥마인드, Gemini 3.1 Pro

Gemini 3.1 Pro 4가지, 공식 문서에서 직접 확인했습니다

벤치마크 1위, 그런데 실무 에이전트에서는 4위 밖

200만 토큰 컨텍스트 — 숫자 그대로 믿으면 비용이 달라집니다

Thinking Level 3단계, 어떤 단계를 쓰느냐가 청구서를 바꿉니다

할루시네이션 50%로 줄었다는 수치, 해석이 필요합니다

어떤 상황에서 Gemini 3.1 Pro가 맞는 선택인가

Q&A

마치며

📚 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Pro 4가지, 공식 문서에서 직접 확인했습니다

벤치마크 1위, 그런데 실무 에이전트에서는 4위 밖

200만 토큰 컨텍스트 — 숫자 그대로 믿으면 비용이 달라집니다

Thinking Level 3단계, 어떤 단계를 쓰느냐가 청구서를 바꿉니다

할루시네이션 50%로 줄었다는 수치, 해석이 필요합니다

어떤 상황에서 Gemini 3.1 Pro가 맞는 선택인가

Q&A

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기