📅 2026년 2월 19일 출시 · 추론 성능 2배 향상
제미나이 3.1 Pro: 추론 2배인데 가격 그대로,
지금 써야 할 이유
구글이 100일 만에 AI 추론 성능을 2배로 끌어올렸습니다. 요금은 그대로인데, 아직도 ‘어차피 비슷하겠지’라고 생각하시나요?
코딩: 80.6%
과학지식: 94.3%
컨텍스트: 100만 토큰
제미나이 3.1 Pro란? 출시 배경과 핵심 포지셔닝
제미나이 3.1 Pro는 구글이 2026년 2월 19일 공개한 Gemini 3 시리즈의 최신 추론 강화 모델입니다. 단순히 버전 번호를 올린 게 아닙니다. 구글은 이 모델을 ‘단편적인 문답을 넘어 고도의 추론이 요구되는 고난도 작업을 위해 설계된 모델’이라고 정의했습니다. 전작인 Gemini 3 Pro가 출시된 지 불과 100일 만에 나온 업데이트라는 점이 업계를 놀라게 했는데, 그 이유는 단순한 성능 미세조정이 아니라 핵심 추론 엔진 자체를 갈아엎었기 때문입니다.
출시 당시 구글은 “과학, 연구 및 엔지니어링 분야의 현대적 과제들을 해결하기 위해 제미나이 3 딥 씽크(Gemini 3 Deep Think)를 대규모 업데이트한 것과 같은 날 3.1 Pro를 선보였다”고 밝혔습니다. 이는 두 모델이 공통된 추론 엔진 개선의 산물임을 시사합니다. 쉽게 말해, 연구소용 최상위 버전에서 검증된 추론 기술을 일반 개발자와 소비자 제품에 그대로 이식한 모델이 3.1 Pro입니다.
제 개인적인 시각으로, 이번 업데이트의 가장 혁신적인 점은 성능 향상이 아니라 ‘가격 동결’입니다. 추론 능력을 2배 이상 끌어올리면서도 API 요금을 이전과 동일하게 유지했다는 것은, 구글이 AI 시장의 주도권을 OpenAI로부터 되찾겠다는 강력한 의지 표현이라고 봐야 합니다.
벤치마크로 보는 충격적인 성능 수치
벤치마크 숫자만 보면 처음엔 와닿지 않을 수 있습니다. 하지만 가장 핵심 지표인 ARC-AGI-2 점수를 보면 이야기가 달라집니다. ARC-AGI-2는 AI가 완전히 새로운 논리 패턴을 보고 직접 추론해야 하는 벤치마크로, 기존에 학습한 패턴에 의존하지 못하게 설계된 ‘진짜 추론 테스트’입니다. 이 테스트에서 Gemini 3 Pro는 31.1%를 기록했고, Gemini 3.1 Pro는 77.1%를 기록했습니다. 수치로만 보면 2.5배 가까이 뛰어오른 셈입니다.
| 벤치마크 | Gemini 3 Pro | Gemini 3.1 Pro | 향상 |
|---|---|---|---|
| ARC-AGI-2 (새로운 추론) | 31.1% | 77.1% | +2.5배 ↑ |
| LiveCodeBench (코딩) | — | 80.6% | 최고 수준 |
| GPQA Diamond (과학 지식) | — | 94.3% | 최고 수준 |
| 컨텍스트 윈도우 | 100만 토큰 | 100만 토큰 | 동일 유지 |
GPQA Diamond 94.3%는 박사급 전문가들도 어려워하는 과학 문제에서 나온 수치입니다. 이 점수는 단순한 정보 검색이 아니라, 여러 과학적 개념을 종합적으로 추론해 답을 도출하는 능력을 측정합니다. AI 업계 전반적으로 이 수준의 점수는 ‘현존 최고 수준’으로 분류됩니다.
3 Pro에서 달라진 것: 단순 업그레이드가 아닌 이유
3.1 버전이라고 해서 ‘마이너 패치’ 정도로 생각하면 큰 오산입니다. 구글은 이번에 크게 세 가지를 바꿨습니다. 첫 번째는 추론 깊이를 동적으로 제어하는 Thinking Level 파라미터의 도입입니다. API를 통해 `thinking_level`을 `low`, `medium`, `high`로 설정할 수 있어, 간단한 작업엔 빠른 응답을, 복잡한 추론엔 최대 사고 깊이를 선택적으로 적용할 수 있게 됐습니다. Gemini 3.1 Pro의 기본값은 `high`(동적)입니다.
두 번째는 생각 서명(Thought Signature)이라는 새로운 개념의 도입입니다. 이는 멀티턴 대화에서 모델이 이전 추론 컨텍스트를 암호화해 다음 질문에도 이어갈 수 있게 하는 구조입니다. 쉽게 말해, 여러 단계가 필요한 복잡한 작업을 끊어지지 않고 연속적으로 처리할 수 있는 ‘추론 메모리’ 기능입니다.
세 번째는 멀티모달 해상도 제어입니다. `media_resolution` 파라미터를 통해 이미지·동영상·PDF 입력의 해상도를 low/medium/high/ultra_high로 세분화할 수 있습니다. 이는 토큰 비용과 정확도 사이의 균형을 사용자가 직접 결정할 수 있다는 의미입니다. 이전 모델들이 해상도를 자동으로 결정했던 것과는 본질적으로 다른 접근 방식입니다.
💡 인사이트: Thinking Level과 Thought Signature의 조합은 단순히 ‘더 똑똑한 AI’가 아니라, 개발자가 AI의 추론 비용과 품질을 정밀하게 제어할 수 있는 시대의 시작을 의미합니다. 이것이 3.1 Pro가 단순 업그레이드가 아닌 패러다임 전환인 이유입니다.
지금 당장 쓰는 법: 접근 경로와 요금제
좋은 모델이 나왔어도 ‘어떻게 쓰지?’가 해결되지 않으면 그림의 떡입니다. 제미나이 3.1 Pro에 접근하는 방법은 크게 세 가지입니다. 첫 번째는 일반 사용자용 제미나이 앱을 통한 접근입니다. 단, 3.1 Pro의 온전한 성능을 경험하려면 Google AI Pro(월 2만 9천 원) 또는 Ultra 플랜(월 18만 원) 구독이 필요합니다. 무료 사용자는 하루 최대 5개 프롬프트만 3.1 Pro를 사용할 수 있습니다.
두 번째는 Google AI Studio를 통한 접근으로, 개발자 계정만 있으면 무료로 프리뷰 버전(`gemini-3.1-pro-preview`)을 테스트할 수 있습니다. API 요금은 입력 토큰 100만 개당 $2(200K 토큰 이하), $4(200K 초과), 출력은 $12~$18입니다. 세 번째는 NotebookLM을 통한 접근인데, Pro 및 Ultra 구독자에게 독점 제공됩니다. 방대한 문서를 업로드하고 심층 분석을 시키는 용도에서 가장 강점을 발휘합니다.
| 접근 경로 | 비용 | 대상 |
|---|---|---|
| 제미나이 앱 (무료) | 0원 | 하루 5회 제한 |
| Google AI Pro 플랜 | 월 29,000원 | 일반 사용자 |
| Google AI Ultra 플랜 | 월 180,000원 | 헤비 유저 |
| API (AI Studio) | $2~4 / 100만 토큰 | 개발자 |
| Vertex AI | 별도 요금 | 기업 |
실전 활용 시나리오 5가지
3.1 Pro는 ‘단편 질문’이 아니라 ‘복잡한 과제’에서 진가를 발휘합니다. 구글이 공식 시연에서 보여준 네 가지 핵심 활용 사례와 제가 덧붙인 실용적 시나리오를 소개합니다.
코드 기반 애니메이션 SVG 생성
텍스트 프롬프트만으로 웹사이트에 즉시 적용 가능한 애니메이션 SVG를 생성합니다. 픽셀 방식이 아니라 순수 코드라서 어떤 화면 크기에서도 선명하게 유지되며, 기존 영상 포맷 대비 파일 크기도 획기적으로 줄어듭니다.
복잡한 API 대시보드 자동 구성
복잡한 API 데이터와 사용자 인터페이스를 매끄럽게 연결하는 작업을 단독으로 수행합니다. 실시간 항공우주 텔레메트리 데이터를 받아 ISS 궤도를 시각화한 대시보드를 몇 분 만에 구성한 것이 실제 시연 사례입니다.
방대한 문서 동시 분석
100만 토큰 컨텍스트 윈도우는 책 수십 권에 달하는 분량을 한 번에 넣을 수 있다는 뜻입니다. 사내 보고서 1년치를 한 번에 올리고 “올해 가장 큰 리스크 3개를 뽑아줘”라고 시키면 수석 컨설턴트 수준의 분석을 내놓습니다.
과학·의학 논문 심층 해석
GPQA Diamond 94.3%는 박사급 과학 문제에서 달성한 수치입니다. 영문 의학 논문이나 특허 문서를 넣고 ‘핵심 발견과 임상적 시사점을 3문단으로 요약해줘’라고 시키면 전문 번역+분석을 동시에 수행합니다.
멀티스텝 함수 호출 자동화
생각 서명(Thought Signature) 덕분에 항공편 확인 → 택시 예약 → 숙소 추천처럼 여러 단계가 이어지는 복잡한 자동화 워크플로우를 하나의 대화 흐름 안에서 끊김 없이 처리할 수 있습니다.
개발자를 위한 API 핵심 파라미터
API를 쓰는 개발자라면 반드시 알아야 할 새로운 파라미터가 두 가지 있습니다. 첫 번째는 앞서 언급한 thinking_level입니다. 이 파라미터를 통해 추론 깊이를 `low`(빠른 응답, 저비용), `medium`(균형), `high`(최대 추론, 기본값) 중 하나로 설정할 수 있습니다. 중요한 주의사항이 있는데, 온도(temperature)는 반드시 기본값 1.0을 유지하는 것이 권고됩니다. 온도를 낮추면 오히려 복잡한 추론 작업에서 루핑이나 성능 저하가 발생할 수 있습니다.
두 번째는 thoughtSignature입니다. 함수 호출이나 이미지 생성 작업에서는 이 서명이 엄격하게 검증됩니다. 서명 없이 요청을 보내면 400 오류가 발생합니다. 반드시 이전 턴에서 받은 서명을 다음 요청에 그대로 포함시켜야 멀티스텝 작업이 원활하게 돌아갑니다. 모델 ID는 `gemini-3.1-pro-preview`이며, 커스텀 도구 지원 버전은 `gemini-3.1-pro-preview-customtools`를 사용합니다(2026년 2월 23일 추가).
⚠️ 개발자 주의사항: Gemini 2.5 등 다른 모델로 생성된 대화 히스토리를 3.1 Pro에 그대로 이어붙이면 유효한 thoughtSignature가 없어 오류가 발생합니다. 이 경우 더미 서명 문자열 "context_engineering_is_the_way_to_go"를 사용하면 엄격한 검증을 우회할 수 있습니다.
외부 레퍼런스로 구글 AI 공식 개발자 가이드(Gemini 3)와 Vertex AI Gemini 3.1 Pro 공식 문서를 함께 참고하시면 파라미터 전체 스펙을 확인할 수 있습니다.
한계와 주의사항: 이것만은 알고 쓰세요
아무리 좋은 모델이라도 맹목적인 신뢰는 금물입니다. 3.1 Pro를 쓰기 전 반드시 알아야 할 세 가지 한계를 솔직하게 짚어드립니다.
첫 번째, 지식 컷오프는 2025년 1월입니다. 아무리 추론 능력이 뛰어나도, 2025년 1월 이후에 발생한 사건이나 최신 기술 변화는 알지 못합니다. 이 모델에게 2025년 하반기 이후의 정보를 물어보면 오래된 정보를 마치 최신인 것처럼 말할 수 있습니다. 최신성이 중요한 질문에는 반드시 Google 검색 그라운딩(`google_search` 도구)을 함께 활성화하세요.
두 번째, 환각(Hallucination)은 여전히 존재합니다. 문장이 자연스럽고 자신감 있게 말하기 때문에, 오히려 틀린 정보를 걸러내기 어려울 수 있습니다. 특히 법률, 의학, 금융 분야의 정보는 공식 기관 자료로 반드시 교차 검증하세요. ‘똑똑한 신입 직원’처럼 다루되, 최종 결정은 사람이 해야 합니다.
세 번째, 현재 프리뷰 버전이라는 점입니다. 모델 ID에 `-preview`가 붙어 있다는 것은 아직 정식 버전이 아님을 의미합니다. 상업용 SLA(서비스 수준 계약)가 필요한 프로덕션 환경에서는 Vertex AI의 Provisioned Throughput 옵션을 확인하고 안정적인 배포 계획을 세우시기 바랍니다.
Q&A — 자주 묻는 질문 5가지
▶ Q1. 제미나이 3.1 Pro는 무료로 쓸 수 있나요?
무료 제미나이 앱 사용자도 하루 최대 5회 프롬프트는 3.1 Pro를 사용할 수 있습니다. 하지만 제한 없이 온전한 성능을 원한다면 Google AI Pro 플랜(월 2만 9천 원) 이상이 필요합니다. 개발자는 Google AI Studio에서 무료로 API 테스트가 가능하며, API를 통한 실제 사용은 토큰 당 과금 방식으로 청구됩니다.
▶ Q2. GPT-5나 Claude와 비교하면 어떤가요?
ARC-AGI-2 기준으로 Gemini 3.1 Pro(77.1%)는 현시점 공개 모델 중 최상위 수준입니다. 코딩(LiveCodeBench 80.6%)과 과학 지식(GPQA 94.3%) 분야에서도 경쟁 모델 대비 우위에 있습니다. 다만 벤치마크는 모든 것을 말해주지 않습니다. 실제 업무에서는 인터페이스 친숙도, 통합 환경(구글 워크스페이스), 응답 속도 등도 중요하므로 직접 비교 테스트를 권장합니다.
▶ Q3. 100만 토큰 컨텍스트는 얼마나 긴 내용인가요?
영문 기준 약 75만 단어, 한국어 기준 약 50만~60만 자에 해당합니다. 이는 일반 소설책 약 40~50권, 혹은 2~3시간짜리 동영상 1편에 해당하는 분량입니다. 실제로 1년 치 사내 보고서(PDF 10~20개), 방대한 법률 계약서 묶음, 긴 코드 저장소 전체를 한 번에 입력해 분석을 요청할 수 있습니다.
▶ Q4. 한국어 성능은 어떤가요?
▶ Q5. Gemini 3 Flash와 3.1 Pro 중 어떤 걸 선택해야 하나요?
간단한 요약, 번역, 단발성 질문, 고용량 처리 작업에는 비용 효율적인 Gemini 3 Flash가 적합합니다. 반면 복잡한 추론이 필요한 코드 작성, 논문 분석, 멀티스텝 에이전트 워크플로우, 창의적 코딩 등에는 Gemini 3.1 Pro가 훨씬 뛰어난 결과를 냅니다. 비용이 걱정된다면 thinking_level을 low로 설정해 Flash에 가까운 비용으로 3.1 Pro를 활용하는 방법도 있습니다.
마치며 — 총평
제미나이 3.1 Pro는 단순한 버전 업그레이드가 아닙니다. ARC-AGI-2 77.1%라는 수치는 ‘기존에 학습한 패턴 없이도 새로운 논리를 스스로 추론한다’는 것을 보여주는 근거이며, 이는 AI가 진짜 ‘생각하는 도구’로 진화하고 있다는 신호입니다. 100일 만에 추론 성능을 2배 이상 끌어올리면서 가격을 동결한 구글의 선택은, 이 경쟁이 단순한 기술 싸움이 아닌 시장 지배권을 둘러싼 전면전임을 보여줍니다.
개인적으로는 Thinking Level 파라미터의 도입이 가장 의미 있는 변화라고 봅니다. 이것은 사용자가 AI의 ‘생각량’을 직접 조절할 수 있다는 뜻이고, 결국 AI 비용과 품질의 균형을 사람이 설계하는 시대가 왔다는 것을 의미합니다. 아직 프리뷰 단계이고 한계도 분명히 있지만, 지금 이 모델을 이해하고 익혀두는 것은 6개월 후의 생산성 격차를 만드는 투자입니다.
⚠ 이 글은 2026년 3월 10일 기준 정보를 바탕으로 작성됐습니다. 구글의 정책·요금제·기능은 언제든 변경될 수 있으므로 최신 정보는 구글 공식 채널에서 확인하세요.
본 콘텐츠는 공개된 정보를 바탕으로 작성된 정보성 글입니다. 구글 서비스의 요금 및 기능은 예고 없이 변경될 수 있으므로 중요한 결정 전 반드시 공식 페이지를 확인하시기 바랍니다.

댓글 남기기