제미나이 3.1 프로 딥씽크: 추론 2배 됐는데 모르면 손해다

Published on

in

제미나이 3.1 프로 딥씽크: 추론 2배 됐는데 모르면 손해다

Google DeepMind · 2026.02.19 출시

제미나이 3.1 프로 딥씽크:
추론 성능 2배 됐는데 모르면 손해다

구글이 2026년 2월 19일 공개한 제미나이 3.1 프로(Gemini 3.1 Pro)는 전작 대비 추론 성능이 2배 이상 향상됐습니다. 핵심은 ‘딥씽크(Deep Think)’ 기능입니다. ARC-AGI-2 벤치마크에서 무려 77.1%를 기록, 경쟁사 최신 모델을 모두 제쳤습니다.

ARC-AGI-2 77.1%
GPQA Diamond 94.3%
전작 대비 추론 2배↑
Ultra 전용 Deep Think

제미나이 3.1 프로가 뭐가 다른가 — 숫자로 보는 진짜 성능

제미나이 3.1 프로는 구글 딥마인드가 2026년 2월 19일 공개한 Gemini 3 시리즈의 최신 업그레이드 버전입니다. 단순히 버전 번호 하나 올린 마이너 업데이트가 아닙니다. 추론 성능이 전작(Gemini 3 Pro) 대비 두 배 이상 향상됐다는 것이 공식 벤치마크로 확인됐고, 특히 ‘ARC-AGI-2’라는 난이도 최상급 추론 벤치마크에서 77.1%라는 점수를 기록했습니다. 같은 벤치마크에서 전작은 31.1%에 머물렀고, 현재 한국 블로그에서 자주 언급되는 Claude Opus 4.6도 68.8%에 그쳤습니다.

벤치마크 Gemini 3.1 Pro Gemini 3 Pro Claude Opus 4.6
ARC-AGI-2 (추론) 77.1% 31.1% 68.8%
GPQA Diamond (과학) 94.3% 91.9% 91.3%
SWE-Bench Verified (코딩) 80.6% 76.2% 80.8%
HLE (학문적 추론) 44.4% 37.5% 40.0%
MMMLU (다국어 Q&A) 92.6% 91.8% 91.1%

※ Thinking(High) 기준, Google DeepMind 공식 Model Card (2026.02.19)

가장 주목할 수치는 ARC-AGI-2입니다. 이 벤치마크는 “사람은 쉽게 풀지만 AI는 어려워하는” 논리 패턴 문제를 출제해 진짜 추론 능력을 측정합니다. 전작이 31.1%라는 낮은 점수를 받았는데, 제미나이 3.1 프로는 그것을 77.1%로 끌어올렸습니다. 단순히 더 많이 학습한 결과가 아니라, 내부 추론 아키텍처 자체가 바뀐 것입니다. 이것이 딥씽크의 본질입니다.

💡 인사이트
벤치마크 수치만 보면 단순한 성능 향상처럼 보이지만, 개인적으로는 이 모델이 ‘AI가 드디어 인간처럼 단계별로 생각하기 시작했다’는 임계점을 넘겼다고 봅니다. ARC-AGI-2 77.1%는 숫자가 아니라 패러다임 변화의 신호입니다.

▲ 목차로 돌아가기

딥씽크(Deep Think)란 무엇인가 — AI가 ‘깊이 생각하는’ 방식

제미나이 3.1 프로 딥씽크(Deep Think)는 단순히 응답 시간을 더 쓰는 게 아닙니다. ‘Deep Think Mini’라는 구글 딥마인드의 특수 추론 시스템이 활성화되는 질적으로 다른 모드입니다. 일반 모드에서 AI는 학습된 패턴을 빠르게 매핑해 답을 냅니다. 반면 딥씽크 모드에서는 복잡한 문제를 여러 하위 문제로 분해하고, 다수의 해결 경로를 평가한 뒤, 최종 답변 전에 내부 검증까지 수행합니다. 인간이 어려운 수학 문제를 풀 때 머릿속으로 여러 번 검산하는 과정과 유사합니다.

기술적으로 딥씽크는 ‘thinking tokens’이라는 개념과 연결됩니다. 모델은 최종 응답 텍스트를 출력하기 전에 내부 사고 과정에 해당하는 토큰을 먼저 생성합니다. 이 thinking token들은 사용자에게 일부만 공개되지만, 실제 과금에서는 출력 토큰과 동일한 요금($12/100만 토큰)이 적용됩니다. HIGH 모드에서는 단일 복잡한 질문 하나에 최대 2만 개의 thinking token이 생성될 수 있습니다. 이것이 비용이 급증하는 이유이고, 동시에 딥씽크가 강력한 이유입니다.

🔍 딥씽크 활성화 조건 요약

  • Gemini 앱: Google AI Ultra 구독 필수 (만 18세 이상)
  • API 개발자: thinking_level: "high" 파라미터 설정
  • 응답 대기 시간: 복잡한 문제는 수 분까지 소요 가능
  • 알림 기능: 웹/모바일 앱에서 완성 시 알림 수신 가능

딥씽크는 모든 질문에 쓸 필요가 없습니다. 번역, 간단한 요약, 분류 작업 등에 딥씽크를 쓰는 건 스포츠카로 동네 마트를 가는 것과 같습니다. 반면 수학 증명, 코드 아키텍처 설계, 다단계 과학 분석처럼 단계별 추론이 결과를 좌우하는 작업에서는 딥씽크가 없으면 답의 질이 현저히 떨어집니다.

▲ 목차로 돌아가기

Thinking Level 3단계 완전 분석 — LOW·MEDIUM·HIGH 무엇을 쓸까

제미나이 3.1 프로는 기존 Gemini 2.5 시리즈가 사용하던 숫자형 thinking_budget 파라미터를 폐기하고, 새로운 thinking_level 파라미터를 도입했습니다. 값은 “low”, “medium”, “high” 세 가지입니다. 전작 Gemini 3 Pro는 LOW와 HIGH만 지원했지만, 3.1 Pro는 MEDIUM이 새롭게 추가됐습니다. 이 세 단계를 정확히 이해하는 것이 비용과 품질 모두를 잡는 핵심입니다.

LOW
최소 추론

Thinking token: 약 200~500개

응답 속도: 1~3초

적합한 작업: 번역, 분류, 텍스트 추출, 간단한 Q&A

MEDIUM ⭐추천

Thinking token: 약 1,000~3,000개

응답 속도: 3~8초

적합한 작업: 코드 생성, 콘텐츠 작성, 디버깅, 분석 보고서

HIGH (딥씽크)

Thinking token: 5,000~20,000개+

응답 속도: 30초~수 분

적합한 작업: 복잡한 수학/과학 추론, 신규 알고리즘 설계, 연구 종합

중요한 함정이 하나 있습니다. API를 사용할 때 thinking_level을 별도로 지정하지 않으면 기본값이 HIGH입니다. 구글이 모델의 최고 성능을 보여주려는 의도로 설정한 기본값이지만, 개발자 입장에서는 단순 작업에도 최고 요금이 자동으로 적용되는 함정입니다. 반드시 명시적으로 레벨을 지정해야 합니다. 또한 Gemini 3.1 Pro에서는 thinking을 완전히 비활성화할 수 없습니다. LOW로 설정해도 최소한의 내부 추론은 항상 발생합니다.

▲ 목차로 돌아가기

요금제별 딥씽크 사용 가능 여부 — Pro·Ultra 차이 정리

구글 AI 요금제는 현재 무료(Free), AI Plus(월 ₩11,000), AI Pro(월 ₩29,000), AI Ultra(월 ₩360,000) 네 단계로 운영됩니다. 제미나이 3.1 프로 딥씽크 접근 여부는 요금제에 따라 명확히 구분됩니다. Gemini 앱에서 Deep Think 기능을 사용하려면 Google AI Ultra 구독이 필수입니다. AI Pro 구독자는 제미나이 3.1 Pro 모델 자체에는 접근할 수 있지만, Deep Think 모드는 Ultra 전용 기능입니다.

기능 무료 AI Plus AI Pro AI Ultra
Gemini 3.1 Pro 모델 제한적 ✅ 최고 한도
Deep Think 모드 ✅ (한도 있음)
Deep Research 월 5회 (Flash) 월 20회 일 20회 일 200회
Veo 3.1 영상 생성 월 100개 최고 한도
NotebookLM 3.1 Pro ✅ 독점 한도

개발자의 경우 이야기가 다릅니다. Google AI Studio에서는 API를 통해 gemini-3.1-pro-preview 모델을 호출하면 thinking_level을 “high”로 설정해 딥씽크 미니를 활용할 수 있습니다. 일반 앱 구독과는 별도의 과금 구조이며, 사용량에 따라 종량제로 요금이 청구됩니다. 단, Deep Think는 현재 실험적 기능으로 분류되어 있어 구글이 사전 고지 없이 변경하거나 중단할 수 있습니다.

▲ 목차로 돌아가기

딥씽크 실전 활용법 — 이 상황엔 반드시 HIGH로 써야 한다

딥씽크의 진가는 ‘일반 AI가 틀리는 문제를 맞히는’ 상황에서 드러납니다. 공식 벤치마크 숫자도 중요하지만, 실제로 어떤 작업에서 HIGH 모드가 빛나는지 아는 것이 더 실용적입니다. 구글의 공식 발표와 모델 카드 데이터를 바탕으로 딥씽크가 확실한 효과를 내는 작업 유형을 정리했습니다.

코딩
복잡한 알고리즘 설계 및 버그 분석
SWE-Bench Pro(공개 세트) 54.2%로 경쟁 모델 중 최고권. 단순 코드 자동완성이 아닌, 기존 코드베이스의 맥락을 파악해 버그를 근본 원인까지 추적하는 작업에서 차별점이 극명합니다.

연구
과학 논문 분석 및 연구 종합
GPQA Diamond(대학원 수준 과학 질문) 94.3%는 사실상 전문가 수준입니다. 복수의 논문을 비교 분석하고 모순점을 찾거나, 화학·물리·생물 분야 복잡한 질문을 다룰 때 딥씽크를 켜면 일반 모드와 답의 깊이가 전혀 다릅니다.

에이전트
장기 멀티스텝 워크플로우
APEX-Agents 벤치마크 33.5% — 전작(18.4%) 대비 거의 2배. 여러 도구와 API를 순서대로 호출하며 목표를 달성해야 하는 에이전트 시나리오에서 딥씽크의 단계별 계획 능력이 결정적 역할을 합니다.

검색
복잡한 웹 리서치 및 BrowseComp
BrowseComp 벤치마크 85.9%로 경쟁 모델 중 최고. 단순 키워드 검색이 아닌, 여러 웹 소스를 탐색하며 모순을 걸러내고 신뢰할 수 있는 정보를 종합하는 복잡한 리서치 작업에 최적입니다.

💡 주관적 추천
한국 사용자가 딥씽크를 가장 실용적으로 쓸 수 있는 영역은 단연 ‘한국어 법률·계약서 분석’이라고 생각합니다. MMMLU 다국어 Q&A에서 92.6%로 1위를 기록할 만큼 한국어 처리 능력이 뛰어나고, 복잡한 법조문의 조건-결과 관계를 단계별로 분석하는 데 딥씽크의 다중 경로 추론이 매우 유용합니다.

▲ 목차로 돌아가기

비용 폭탄 피하는 법 — Thinking Token 80/20 최적화 전략

API를 쓰는 개발자라면 이 섹션이 제일 중요합니다. Thinking token은 출력 토큰과 동일한 요금($12/100만 토큰)이 부과됩니다. 입력 토큰($2/100만)보다 6배 비쌉니다. HIGH 모드에서는 단일 복잡한 요청에 thinking token이 최대 2만 개 생성될 수 있습니다. 이 경우 해당 요청 하나에만 $0.24의 thinking token 비용이 발생합니다. 하루 1만 건의 요청을 처리하는 프로덕션 서비스가 모든 요청을 HIGH로 처리한다면, thinking token 비용만 한 달에 약 2,900만 원이 발생할 수 있습니다.

⚠️ 주의 — API 기본값 함정
thinking_level을 명시하지 않으면 기본값은 HIGH입니다. 간단한 번역 요청에도 자동으로 HIGH가 적용되어 불필요한 비용이 청구됩니다. 반드시 모든 API 호출에 thinking_level을 명시적으로 설정하세요.

해결책은 ’80/20 라우팅 전략’입니다. 요청 유형을 사전에 분류해, 60%는 LOW, 30%는 MEDIUM, 10%만 HIGH로 라우팅합니다. 이 전략을 적용하면 HIGH만 사용했을 때 대비 월 비용을 70~75% 절감할 수 있습니다. 위 예시 기준으로 월 2,900만 원짜리 청구서가 약 720만 원으로 줄어듭니다.

작업 유형 권장 레벨 HIGH 대비 품질 비용 절감
번역·분류·추출 LOW 97~99% 80~90%
코드 생성·콘텐츠 작성 MEDIUM 92~95% 60~70%
복잡한 수학·과학 추론 HIGH 100% (기준)

추가로 Batch API와 Context Caching을 활용하면 비용을 더 줄일 수 있습니다. Batch API는 실시간 응답이 불필요한 요청에 50% 할인을 제공합니다. Context Caching은 동일한 시스템 프롬프트나 배경 문서를 여러 요청에 재사용할 때 캐시된 입력 토큰을 $0.5/100만 토큰에 처리합니다. 세 전략을 함께 적용하면 총 API 비용을 80% 이상 절감할 수 있습니다.

▲ 목차로 돌아가기

경쟁 모델과의 솔직한 비교 — 제미나이가 앞서는 영역, 밀리는 영역

벤치마크만 보면 제미나이 3.1 프로가 전 분야 1위인 것처럼 보이지만, 냉정하게 따져보면 앞서는 영역과 밀리는 영역이 분명히 있습니다. 모델 카드 공식 데이터를 기준으로 솔직하게 정리했습니다.

✅ 제미나이 3.1 프로가 확실히 앞서는 영역

추상 추론(ARC-AGI-2)에서 77.1%는 비교 대상인 Claude Sonnet 4.6(58.3%), Claude Opus 4.6(68.8%), GPT-5.2(52.9%)를 모두 크게 앞섭니다. 이 벤치마크는 새로운 패턴 인식 능력을 평가하므로, 전혀 학습하지 않은 새로운 형태의 문제를 만나도 추론으로 풀어내는 능력에서 현재 가장 앞서 있다고 볼 수 있습니다.

과학 지식(GPQA Diamond)에서도 94.3%로 선두입니다. 장기 에이전트 작업(APEX-Agents)웹 검색 기반 리서치(BrowseComp)에서도 마찬가지입니다. 경쟁 코딩(LiveCodeBench Pro, Elo 2887)에서도 압도적 1위를 기록했습니다.

⚠️ 제미나이 3.1 프로가 밀리거나 비등한 영역

전문 코딩(SWE-Bench Verified)에서는 Claude Opus 4.6(80.8%)에 0.2%p 차이로 근소하게 뒤집니다(80.6%). 실질적으로는 동급입니다. 멀티모달 이해(MMMU-Pro)에서는 Gemini 3 Pro(81.0%)보다 오히려 약간 낮습니다(80.5%). 딥씽크 모드에서도 멀티모달 이해가 전작보다 소폭 떨어지는 기이한 현상인데, 안전성 평가에서도 이미지-텍스트 안전성이 -0.33%로 소폭 하락했다는 점과 연관이 있어 보입니다.

GDPval-AA(전문가 수준 태스크)에서는 Claude Sonnet 4.6(1633)과 Opus 4.6(1606)에 크게 밀립니다(1317). 이 벤치마크는 실제 전문가가 쓸 만한 결과물 품질을 측정하는데, 제미나이가 수리 추론에는 강하지만 전문 글쓰기나 복잡한 직업적 문서 작성에서는 클로드 계열에 뒤처진다는 것을 시사합니다.

💡 한 줄 요약 (주관적 견해)
수학·과학·코딩·에이전트 작업 → 제미나이 3.1 프로 딥씽크. 전문 문서 작성·창작·섬세한 글쓰기 → Claude 계열. 두 모델을 용도별로 병행 사용하는 게 현재로서는 가장 현명한 전략입니다.

▲ 목차로 돌아가기

Q&A — 자주 묻는 5가지 핵심 질문

Q1. 제미나이 3.1 프로 딥씽크는 무료로 사용할 수 있나요?
Q2. 딥씽크(Deep Think)와 딥리서치(Deep Research)는 다른 건가요?
전혀 다른 기능입니다. 딥씽크(Deep Think)는 모델 내부 추론 방식을 강화하는 기능으로, 이미 주어진 정보를 더 깊이 생각하게 만드는 것입니다. 딥리서치(Deep Research)는 인터넷을 탐색해 여러 소스를 수집·분석한 뒤 보고서를 작성하는 기능입니다. 비유하자면, 딥씽크는 ‘더 깊이 사고하는 뇌’, 딥리서치는 ‘인터넷을 직접 검색하는 연구원’입니다. 두 기능은 함께 활성화될 수도 있습니다.
Q3. thinking_budget에서 thinking_level로 마이그레이션은 어떻게 하나요?
두 파라미터를 동시에 사용하면 HTTP 400 오류가 발생하므로 코드에서 하나를 완전히 제거해야 합니다. 매핑 기준은 다음과 같습니다: thinking_budget 1~1,024 → “low” / 1,024~8,192 → “medium” / 8,192+ → “high”. thinking_budget 0(비활성화)에 해당하는 옵션은 3.1 Pro에서 지원하지 않으므로 최소한 “low”를 사용해야 합니다. thinking_budget은 레거시 호환으로 아직 동작하지만, 향후 deprecate될 가능성이 높으므로 빠른 마이그레이션을 권장합니다.
Q4. 딥씽크로 응답을 기다리는 동안 다른 채팅을 열 수 있나요?
가능합니다. Deep Think 응답 생성에는 수 분이 걸릴 수 있어서, 구글은 대기 중에 해당 채팅에서 나가 다른 새 채팅을 시작할 수 있도록 설계했습니다. 응답이 준비되면 웹 앱에서는 채팅 목록 옆에 완성 표시가 나타나고, 모바일 앱에서는 기기 알림으로 수신됩니다. 딥씽크를 실행해 두고 다른 작업을 하다가 알림이 오면 확인하는 방식으로 활용하면 효율적입니다.
Q5. Gemini 3.1 Pro와 Gemini 3 Deep Think는 같은 건가요?
다릅니다. Gemini 3 Deep Think는 2026년 2월 12일 발표된 독립 모델로, 과학·연구·공학 분야의 최고난도 문제를 위한 최상위 추론 모델입니다. AI Ultra 구독자도 사용 횟수가 매우 제한적입니다. Gemini 3.1 Pro + Deep Think 모드(High)는 Gemini 3 Deep Think의 핵심 지능을 기반으로 실용적인 애플리케이션에 최적화한 버전입니다. 쉽게 말해, Gemini 3 Deep Think가 ‘연구소 슈퍼컴퓨터’라면 Gemini 3.1 Pro High는 ‘고성능 워크스테이션’에 비유할 수 있습니다.

▲ 목차로 돌아가기

마치며 — 총평

제미나이 3.1 프로 딥씽크는 단순한 업데이트가 아닙니다. 추론 성능이 진짜로 두 배가 됐다는 것을, ARC-AGI-2 77.1%라는 외부 검증 데이터가 뒷받침합니다. 특히 장기 에이전트 워크플로우, 경쟁 수준 코딩, 다단계 과학 분석에서 현재 공개된 모델 중 최강자 반열에 올랐습니다.

다만 솔직히 말하면 두 가지 아쉬운 점이 있습니다. 첫째, 딥씽크 기능이 Gemini 앱에서는 AI Ultra 구독자 전용이라는 점입니다. 월 36만 원짜리 구독이 일반 개인 사용자에게는 높은 장벽입니다. 실질적인 딥씽크 혜택을 누리려면 API를 통한 개발자 접근이 더 현실적인 선택지입니다. 둘째, 실험적 기능 상태라 언제든 변경·중단될 수 있다는 불확실성이 있습니다.

그럼에도 불구하고 AI 추론 기술이 이 속도로 발전하고 있다는 사실 자체가 놀랍습니다. 1년 전만 해도 ARC-AGI-2 30%대였던 모델이 77%를 돌파했습니다. 이 속도라면 내년 이 시점에 어떤 모델이 나와 있을지 상상하기 어렵습니다. 지금 제미나이 3.1 프로 딥씽크를 이해하고 활용법을 익혀두는 것이, 빠르게 변하는 AI 도구 환경에서 뒤처지지 않는 가장 실용적인 방법이라고 생각합니다.

▲ 목차로 돌아가기

※ 본 포스팅의 벤치마크 데이터는 Google DeepMind 공식 Model Card(2026년 2월 기준)에 근거합니다. 요금제 정보는 시기에 따라 변경될 수 있으며, 최신 정보는 구글 AI 요금제 공식 페이지에서 확인하시기 바랍니다. Deep Think는 현재 실험적 기능으로 구글이 사전 고지 없이 변경하거나 중단할 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기