Gemini 3.1 Pro Deep Think, 써봤더니 한도가 문제였습니다

Published on

in

Gemini 3.1 Pro Deep Think, 써봤더니 한도가 문제였습니다

2026.02.19 출시 기준 / Gemini 3.1 Pro

ARC-AGI-2 77.1%라는 숫자, 기존 블로그는 전부 찬사 일색입니다. 직접 공식 문서를 뜯어보니 그 숫자 뒤에 아무도 말하지 않은 조건이 붙어 있었습니다.

Ultra 전용 기능
하루 10회 한도
ARC-AGI-2 77.1%

Gemini 3.1 Pro가 뭐가 달라졌는지부터 확인했습니다

구글이 2026년 2월 19일 공개한 Gemini 3.1 Pro는 Gemini 3 Pro 아키텍처를 그대로 유지하면서 추론 엔진만 집중 업그레이드한 모델입니다. (출처: Google DeepMind 모델 카드, 2026.02.19) 기존 3 Pro가 갖고 있던 코딩, 장문 컨텍스트 처리 능력을 바탕으로, 고난도 수학·논리 문제를 연속으로 풀어내는 능력이 크게 올라갔습니다.

가격은 기존 Google AI Pro(월 29,000원), Google AI Ultra(월 360,000원) 요금제 내에서 추가 비용 없이 업그레이드됩니다. 3.1 Pro의 기본 모드는 Google AI Pro 구독자라면 하루 100개 프롬프트까지 쓸 수 있고, Ultra 구독자는 하루 500개까지 확장됩니다. (출처: Google Gemini 앱 한도 공식 문서, 2026.03 기준)

그런데 많은 블로그에서 “3.1 Pro = Deep Think 가능”이라고 설명합니다. 막상 Pro 요금제를 구독하면 Deep Think가 메뉴에 보이지 않아 당황하는 사례가 적지 않습니다. 이유가 있습니다.

▲ 목차로 돌아가기

ARC-AGI-2 77.1%, 그런데 조건이 있습니다

Gemini 3.1 Pro 출시 당일, 구글 공식 블로그는 ARC-AGI-2 벤치마크 77.1%를 전면에 내세웠습니다. 기존 Gemini 3 Pro(31.1%) 대비 두 배 이상 향상됐다는 수치입니다. 당연히 “대단하다”는 반응이 쏟아졌습니다.

💡 공식 모델 카드의 벤치마크 표를 직접 열어보니, 이 수치 옆에 “Thinking (High)”라는 조건 컬럼이 붙어 있었습니다.

Google DeepMind가 2026년 2월에 공개한 Gemini 3.1 Pro 모델 카드 벤치마크 표를 보면, ARC-AGI-2 77.1%는 “Gemini 3.1 Pro Thinking (High)” 모드 기준입니다. (출처: Google DeepMind Model Card, 2026.02.19, deepmind.google/models/model-cards/gemini-3-1-pro) 이건 일반 Pro 모드가 아닙니다. 고비용 추론을 최대한 활성화한 상태로 테스트한 수치입니다.

비교하면 Gemini 3 Pro Thinking(High)는 31.1%, Claude Opus 4.6 Thinking(Max)은 68.8%, GPT-5.2 Thinking(xhigh)은 52.9%였습니다. Gemini 3.1 Pro가 77.1%로 1위이긴 합니다. 하지만 이건 어디까지나 고비용 Thinking 모드끼리 비교한 숫자입니다. Pro 요금제에서 일반 모드로 대화할 때 이 숫자가 그대로 나오지 않습니다.

▲ 목차로 돌아가기

Deep Think는 Ultra에서만 쓸 수 있고, 하루 10번입니다

Gemini 앱에서 Deep Think 3.1을 직접 써보려면 Google AI Ultra 구독이 필수입니다. Google AI Pro(월 29,000원)에서는 Deep Think 메뉴 자체가 열리지 않습니다. 공식 한도 문서에도 “Deep Think 3.1 — Ultra 전용”이라고 명시돼 있습니다. (출처: Google Gemini 앱 한도 공식 문서, support.google.com/gemini/answer/16275805)

💡 Ultra 요금제에서도 Deep Think 3.1은 하루 10개 프롬프트가 한도입니다. 컨텍스트 윈도우는 192,000 토큰으로 제한됩니다.

한국 기준 Google AI Ultra 월 구독료는 360,000원입니다. 단순히 나눠보면 Deep Think 프롬프트 1번의 비용은 약 1,200원 꼴입니다. (월 30일 × 하루 10번 = 300번, 360,000 ÷ 300 = 1,200원/회) 물론 Ultra에는 Pro 500회/일, Thinking 1,500회/일 등 다른 혜택도 포함되지만, 홍보의 핵심인 Deep Think만 뽑아보면 이 계산이 나옵니다.

9to5Google이 2026년 3월 17일 업데이트한 Ultra 기능 목록에도 Deep Think 3.1 항목에 “(10 prompts / day with a 192,000 token context window)”가 그대로 적혀 있습니다. (출처: 9to5Google, 2026.03.17)

▲ 목차로 돌아가기

월 36만 원 내도 Deep Think를 실제로 많이 못 쓰는 이유

하루 10번 한도는 예상보다 빨리 찹니다. Deep Think는 단순 질문에 쓰는 기능이 아니라 “논문 검토, 복잡한 코드 설계, 수학적 증명” 같은 고난도 작업에 최적화되어 있습니다. 실제로 Deep Think를 써본 Reddit 사용자들은 한 번의 작업에 여러 번 프롬프트를 주고받게 되는데, 그러면 10개 한도가 오전 중에 소진되는 일이 흔하다고 말합니다.

또 하나의 변수는 컨텍스트 윈도우 제한입니다. 일반 Pro 3.1 모드는 100만 토큰 컨텍스트를 지원하지만, Deep Think 3.1은 192,000 토큰으로 제한됩니다. 텍스트 환산으로 약 290페이지 수준입니다. (출처: Google Gemini 앱 한도 공식 문서) 긴 문서를 한꺼번에 넣고 심층 분석을 요청하는 시나리오에서는 이 제한이 걸릴 수 있습니다. Pro 일반 모드의 1M 토큰(약 1,500페이지)과 비교하면 약 5분의 1 수준입니다.

항목 Pro 3.1 (일반) Deep Think 3.1
이용 가능 요금제 Pro / Ultra Ultra 전용
일일 한도 Pro 100개 / Ultra 500개 10개 (Ultra 포함)
컨텍스트 윈도우 1,000,000 토큰 192,000 토큰
ARC-AGI-2 성능 공개 미정 77.1% (Thinking High 기준)

(출처: Google DeepMind 모델 카드 2026.02.19 / Google 공식 한도 문서 2026.03 기준)

▲ 목차로 돌아가기

경쟁 모델과 직접 비교해보니 생각보다 격차가 작은 구간이 있습니다

공식 모델 카드에 있는 벤치마크 표를 세로로 훑다 보면 한 항목에서 눈길이 멈춥니다. GDPval-AA라는 “전문가 실무 작업” 평가입니다. 이 항목에서 Gemini 3.1 Pro Thinking은 1317점인 반면, Claude Sonnet 4.6 Thinking은 1633점, Claude Opus 4.6 Thinking은 1606점을 기록했습니다. (출처: Google DeepMind Model Card, 2026.02.19)

💡 공식 발표문과 벤치마크 표를 같이 놓고 보니 이런 차이가 보였습니다. “Gemini 3.1이 모든 항목에서 1위”라는 표현은 ARC-AGI-2처럼 추상 논리 특화 항목에서 맞는 말이고, 전문가 실무 작업(GDPval-AA)에서는 Claude 계열이 앞섭니다.

ARC-AGI-2 같은 추상적 퍼즐 풀기와 실제 업무에서 마주치는 “전략 기획, 문서 분석, 복합 판단” 사이엔 거리가 있습니다. Gemini 3.1 Pro의 강점은 수학·코딩·논리 추론에서 두드러지고, 인간이 평가하는 실무형 작업에서는 경쟁 모델이 여전히 강세입니다. 모든 경우에 “가장 강한 모델”이 아니라, 어떤 작업을 하느냐에 따라 답이 달라집니다.

또한 Reddit 사용자들 사이에서 “Gemini 3 Flash Thinking이 어떤 상황에선 3.1 Pro보다 낫다”는 의견이 꾸준히 올라옵니다. Thinking 한도(하루 300개)가 Pro 한도(하루 100개)보다 넉넉하고, 일반 대화·문서 분석 같은 작업에서 체감 차이가 생각보다 크지 않다는 경험담입니다.

▲ 목차로 돌아가기

그래도 Gemini 3.1 Pro가 압도적으로 유리한 조건이 있습니다

단점만 짚었으니 공정하게 강점도 봐야 합니다. Gemini 3.1 Pro는 SWE-Bench Verified(에이전틱 코딩)에서 80.6%, LiveCodeBench Pro(경쟁 코딩 Elo)에서 2887점을 기록했습니다. 이 두 항목은 실제 코드를 작성하고 실행하는 능력을 평가합니다. 경쟁 모델 중 GPT-5.2가 SWE-Bench 80.0%, Claude Opus 4.6이 80.8%로 비슷한 수준이고, LiveCodeBench에서는 Gemini 3.1 Pro가 단독 1위입니다. (출처: Google DeepMind Model Card, 2026.02.19)

컨텍스트 윈도우 측면에서도 일반 Pro 모드의 1M 토큰은 다른 모델에서 찾기 어려운 경쟁력입니다. 긴 코드베이스 전체를 한 번에 올려 분석하거나, 수백 페이지 PDF를 통째로 처리하는 시나리오에서는 Gemini 3.1 Pro가 실질적인 이점을 제공합니다. NotebookLM Pro 구독자라면 3.1 Pro 엔진이 기본으로 적용되며, 이 역시 Pro(월 29,000원) 요금제에 포함됩니다.

MCP Atlas(멀티스텝 워크플로우)에서 69.2%를 기록하며 경쟁 모델을 앞선 것도 주목할 만합니다. 에이전틱 워크플로우, 즉 여러 도구를 연결해 자동화 작업을 수행하는 시나리오에서 Gemini 3.1 Pro의 강점이 뚜렷합니다. (출처: Google DeepMind Model Card, 2026.02.19) 이 용도라면 Pro 요금제만으로도 충분한 가치가 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?

기본 액세스는 무료 계정에서도 가능하지만 일일 한도가 “자주 변경될 수 있다”고 공식 문서에 명시돼 있습니다. 안정적으로 하루 100개까지 쓰려면 Google AI Pro(월 29,000원)가 필요하고, Deep Think 3.1은 Ultra(월 360,000원) 전용입니다. (출처: Google 공식 한도 문서, 2026.03 기준)

Q2. Deep Think와 일반 Thinking 모드의 차이는 뭔가요?

일반 Thinking 모드는 Pro 구독자도 하루 300회 사용 가능하고 빠른 사고 추론을 제공합니다. Deep Think는 Ultra 전용으로 하루 10회이지만, IMO 금메달급 수학 추론, 복잡한 과학·공학 문제 해결에 특화된 더 깊은 추론을 수행합니다. 컨텍스트 윈도우는 Deep Think가 192,000 토큰으로 더 제한적입니다.

Q3. ARC-AGI-2 77.1%는 어떤 조건에서 측정된 수치인가요?

Google DeepMind 공식 모델 카드 벤치마크 표상 “Gemini 3.1 Pro Thinking (High)” 모드, ARC Prize 재단 검증 기준입니다. 일반 Pro 모드나 Thinking(저비용) 모드의 수치는 별도로 공개되지 않았습니다. 공식 문서에서 별도 조건을 밝히지 않은 부분입니다.

Q4. Google AI Pro와 Ultra, 어떤 요금제가 나에게 맞나요?

코딩, 긴 문서 분석, 에이전틱 워크플로우가 주요 용도라면 Pro(월 29,000원)로도 충분합니다. Deep Think를 통한 수학·과학 고난도 추론이 필요하고 하루 10회 제한이 수용 가능하다면 Ultra를 검토할 수 있습니다. 단순 문서 작성·요약에는 무료 또는 Plus(월 11,000원)도 대안입니다.

Q5. Deep Think 3.1의 하루 10회 한도는 언제 초기화되나요?

공식 문서에 따르면 한도는 매일 점진적으로 초기화됩니다. 정확한 초기화 시각은 공개되지 않았으며, 한도에 근접하면 앱 내에서 알림을 제공한다고 명시돼 있습니다. (출처: Google Gemini 앱 한도 공식 문서)

▲ 목차로 돌아가기

마치며 — 총평

Gemini 3.1 Pro는 분명히 뛰어난 모델입니다. ARC-AGI-2 77.1%, LiveCodeBench Pro Elo 2887, SWE-Bench Verified 80.6%는 실제로 인상적인 수치입니다. 특히 코딩과 에이전틱 워크플로우에서는 경쟁 모델과 어깨를 나란히 하거나 앞서는 구간이 있습니다.

다만 “Gemini 3.1 Pro = 모든 것이 가능한 최강 모델”이라는 식의 서술에는 동의하기 어렵습니다. 가장 많이 홍보된 Deep Think 3.1은 Ultra 전용이고 하루 10번입니다. 벤치마크 1위를 차지한 ARC-AGI-2 수치는 고비용 Thinking 모드 기준이며, 전문가 실무 작업(GDPval-AA)에서는 Claude 계열이 앞섭니다.

코딩 위주로 쓴다면 Pro(월 29,000원)로도 충분한 가치가 있고, 수학·과학 고난도 추론을 매일 집중적으로 쓸 계획이라면 Ultra를 검토해볼 수 있습니다. 단, Ultra를 구독하기 전에 “하루 10번 Deep Think로 내 작업이 실제로 해결되는가”를 먼저 따져보는 게 맞습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. 구글 공식 블로그 — 제미나이 3.1 프로 출시 발표 (2026.02.19) blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/
  2. Google DeepMind 모델 카드 — Gemini 3.1 Pro (2026.02.19) deepmind.google/models/model-cards/gemini-3-1-pro/
  3. Google 공식 지원 문서 — Gemini 앱 한도 및 업그레이드 (2026.03 기준) support.google.com/gemini/answer/16275805
  4. 구글 공식 블로그 — Gemini 3 Deep Think 업그레이드 (2026.02.12) blog.google/intl/ko-kr/company-news/technology/gemini-3-deep-think/
  5. 9to5Google — Google AI Pro & Ultra 기능 총정리 (2026.03.17 업데이트) 9to5google.com/2026/03/17/google-ai-pro-ultra-features/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 21일 기준 공식 문서를 토대로 작성되었습니다. 최신 한도 및 요금 정보는 Google 공식 지원 페이지에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기