Google AI Ultra 전용
Gemini 3 Deep Think,
하루 10번밖에 못 씁니다
ARC-AGI-2에서 84.6%라는 수치가 나오자마자 “AI의 새 시대”라는 말이 쏟아졌습니다. 그런데 이 모드를 실제로 쓰려면 월 249달러짜리 플랜에 가입해야 하고, 그것도 하루에 딱 10번만 쓸 수 있습니다. 공식 한도표에 그대로 나와 있는 숫자입니다.
Deep Think는 어떤 모드인가 — 공식 정의부터
Gemini 3 Deep Think는 구글이 Gemini 3 시리즈에 탑재한 전문 추론 모드입니다. 일반 채팅처럼 즉각 답을 내뱉는 게 아니라, 답을 생성하기 전에 내부에서 깊이 ‘생각’하는 과정을 거칩니다. 구글 공식 발표문에는 “과학, 연구, 공학 분야의 현실적 과제를 다루기 위해 설계됐다”고 나와 있습니다. (출처: 구글 코리아 공식 블로그, 2026.02.12)
처음 Deep Think가 공개된 건 2025년 11월입니다. 당시엔 Google AI Ultra 구독자 한정으로 Gemini 앱에서만 쓸 수 있었고, API 접근은 전혀 열려 있지 않았습니다. 2026년 2월 12일 업그레이드 이후에야 일부 연구자·기업 대상으로 API 얼리 액세스 신청이 열렸습니다.
중요한 건 Deep Think가 Gemini 3.1 Pro 안에 포함된 별도 모드라는 점입니다. 같은 구독이라도 Deep Think와 일반 3.1 Pro 사용 한도는 따로 집계됩니다. 한쪽을 다 써도 다른 쪽은 남습니다.
84.6%의 실체 — 초기 수치와 얼마나 달라졌나
💡 공식 발표문과 초기 벤치마크 수치를 같이 놓고 보니 이런 차이가 보였습니다 — 3개월 사이 같은 지표에서 점수가 약 두 배 올랐습니다.
2025년 11월 첫 공개 당시 ARC-AGI-2 점수는 45.1%였습니다. 그런데 2026년 2월 12일 업그레이드 발표문에는 84.6%가 나옵니다. 불과 약 3개월 만에 같은 벤치마크에서 점수가 두 배 가까이 뛰었습니다. (출처: 9to5Google, 2026.02.12 / Google DeepMind 발표자료)
| 벤치마크 | 2025.11 (초기) | 2026.02.12 (업그레이드) |
|---|---|---|
| ARC-AGI-2 | 45.1% | 84.6% |
| Humanity’s Last Exam (도구 미사용) | 미발표 | 48.4% |
| LiveCodeBench | 미발표 | 95.4% |
| Codeforces Elo | 미발표 | 3455점 |
※ 수치 출처: 구글 코리아 공식 블로그(2026.02.12), 9to5Google(2026.02.12), ARC Prize Foundation 검증
ARC-AGI-2 84.6%는 ARC Prize 재단이 독립적으로 검증한 수치입니다. 이 정도면 ‘역대급’이라는 말이 과장은 아닌데, 문제는 이 숫자를 내는 데 요구되는 조건이 꽤 무겁다는 겁니다.
하루 10번, 이게 전부입니다 — 공식 한도표 직접 확인
Google 고객센터 공식 한도표(2026.03 기준)에 이렇게 나와 있습니다. Deep Think 3.1은 Google AI Ultra 구독자에게만 제공되며, 하루 최대 프롬프트 10개, 컨텍스트 윈도우는 192,000 토큰입니다. (출처: Google 고객센터 support.google.com/gemini)
⚠️ 요금제별 Deep Think 접근 현황
- Gemini 무료 / Google AI Plus: Deep Think 접근 불가 (표에 — 표시)
- Google AI Pro (월 약 27달러): 접근 불가 (표에 — 표시)
- Google AI Ultra (월 249.99달러): 하루 최대 10개 프롬프트
월 249달러는 ChatGPT Pro(월 200달러)보다도 비쌉니다. 그런데 거기서 Deep Think를 쓸 수 있는 건 하루에 딱 10번입니다. 10번 안에 컨텍스트가 긴 복잡한 질문까지 구겨 넣어야 한다는 뜻입니다.
그나마 Deep Think와 일반 3.1 Pro 한도는 별도로 집계됩니다. 3.1 Pro는 하루 500개 프롬프트(Ultra 기준)이니, Deep Think를 다 써도 일반 Pro는 계속 쓸 수 있습니다. 한도 구조를 모르고 쓰면 “Deep Think만 쓰다가 Pro도 막힌 줄 알고 패닉”하는 상황이 생깁니다.
💡 구글은 “한도는 사전 고지 없이 변경될 수 있다”는 문구를 공식 고객센터 페이지에 명시해 두었습니다. 10번이 항상 보장되는 수치가 아니라는 점도 기억해야 합니다.
실제 연구 현장에서 쓴 사례 3가지
구글이 Deep Think 업그레이드 발표문에 직접 공개한 초기 테스터 사례가 있습니다. 마케팅 문구가 아니라 실제 협력 연구자들의 활용 결과입니다. (출처: 구글 코리아 공식 블로그, 2026.02.12)
① 럿거스 대학교 — 동료 심사도 못 잡은 오류 발견
수학자 리사 카본(Lisa Carbone)은 아인슈타인 중력 이론과 양자역학 사이의 수학적 구조를 연구합니다. 기존 훈련 데이터가 거의 없는 분야인데, Deep Think가 동료 심사에서 발견하지 못했던 논리적 오류를 잡아냈습니다. 전문 리뷰어도 놓친 걸 잡은 겁니다.
② 듀크 대학교 왕 연구실 — 100μm 초전도체 박막 레시피 생성
초전도체 물질 발견 가능성을 높이기 위해 결정 성장 공정을 최적화하는 데 Deep Think를 활용했습니다. 기존 방식으로 달성하기 어렵던 100μm 이상 박막 성장 레시피를 성공적으로 설계했습니다. 이 수치 자체가 해당 분야에서 의미 있는 정밀도입니다.
③ 구글 플랫폼·디바이스 R&D — 스케치에서 3D 프린팅 파일로
전 리프트웨어 CEO 아누팜 파탁은 물리적 부품 설계 가속화에 Deep Think를 테스트했습니다. 손으로 그린 스케치를 3D 프린팅 가능한 파일로 변환하는 데 활용했습니다. 도면 분석 → 복잡한 형상 모델링 → 파일 생성까지 하나의 흐름으로 처리됩니다.
세 사례의 공통점이 있습니다. 모두 “명확한 정답이 없고, 데이터가 불완전하며, 고도의 전문 지식이 필요한” 작업입니다. 일상적인 업무 자동화가 아니라 연구·공학 레벨의 문제에 초점이 맞춰져 있습니다.
API로 접근하면 달라지는 것들
💡 공식 개발자 문서를 보면 앱 한도와 API 동작 방식이 꽤 다릅니다 — 특히 thinking_level 파라미터가 핵심입니다.
Gemini API를 통해 Deep Think를 쓰려면 현재 얼리 액세스 신청을 해야 합니다. (출처: Google AI for Developers 공식 문서) 일반 API 키로는 접근이 안 됩니다. 구글이 공식 신청 폼 URL을 발표문에 공개했으며, 연구자·기업을 우선으로 심사합니다.
API에서 가장 주목할 파라미터는 thinking_level입니다. Gemini 3.1 Pro 기준으로 low / medium / high(기본값) 세 단계를 선택할 수 있습니다. 기본값이 high라서, 아무 설정 없이 호출하면 가장 깊이 생각하는 모드로 돌아갑니다. 생각이 깊을수록 첫 번째 토큰이 나오는 데 시간이 훨씬 오래 걸립니다. 빠른 응답이 필요하면 low로 내려야 합니다.
| thinking_level | 3.1 Pro 지원 | 특징 |
|---|---|---|
| low | ✅ | 지연 시간·비용 최소화. 간단한 지시에 적합 |
| medium | ✅ | 대부분의 작업에 균형잡힌 추론 제공 |
| high (기본값) | ✅ | 추론 깊이 최대화. 첫 토큰 대기 시간 매우 길어짐 |
구글 공식 문서는 “온도 파라미터를 1.0에서 낮추면 복잡한 수학·추론 작업에서 루핑이나 성능 저하가 생길 수 있다”고 명시합니다. 성능을 제어하려다 오히려 망가지는 패턴입니다. 온도는 건드리지 않는 게 공식 권고 사항입니다. (출처: Google AI for Developers 개발자 가이드)
벤치마크 숫자만 보면 안 되는 이유
ARC-AGI-2 84.6%는 분명 인상적입니다. 그런데 같은 시기 GPT-5.2는 이 지표에서 54.2%였습니다. (출처: aifreeapi.com 벤치마크 비교, 2026.01) Deep Think가 확실히 앞서는 수치이긴 한데, 여기서 한 가지 짚어야 할 게 있습니다.
실사용 커뮤니티에서는 다른 목소리가 있었습니다. Google AI 개발자 포럼에 올라온 한 사용자 리뷰(2026.01.10)에 따르면 “Gemini 3은 일상 사용에서 Gemini 2.5 대비 성능이 오히려 떨어진다”는 보고가 있었습니다. 장기 메모리 처리, 복잡한 문제의 일관성 유지 면에서 체감 성능이 기대에 미치지 못한다는 내용이었습니다. 구글이 공식 답변을 내놓지 않은 부분입니다.
📌 벤치마크 vs 실사용 온도 차이
벤치마크는 고정된 데이터셋에서 최적의 조건으로 측정됩니다. 실제 사용 환경은 프롬프트 길이, 맥락의 복잡도, 한도 소진 후 모델 교체 등 변수가 많습니다. 수치 자체보다 자신의 실제 작업에 맞는 모델인지가 더 중요합니다.
솔직히 말하면, Deep Think는 하루 10번 한도라는 제약 때문에 일반 업무용으로 쓰기엔 비효율적입니다. 하루에 조금씩 쓰면서 ‘혹시 이거 다 쓰면 어떡하지?’라는 생각이 드는 순간 집중도가 흐트러집니다. 설계 자체가 소수의 깊은 연구 작업에 한 번에 투입하는 구조입니다.
LiveCodeBench 95.4%라는 코딩 성능도 인상적이지만, Codeforces Elo 3455점은 세계 최상위 경쟁 프로그래머 수준입니다. 대부분의 코딩 업무에서는 3.1 Pro나 Gemini 3 Flash로도 충분히 커버됩니다. Deep Think가 필요한 순간은 생각보다 드뭅니다.
Q&A 5가지
마치며 — 숫자는 화려하지만, 쓰는 조건이 현실입니다
ARC-AGI-2 84.6%, LiveCodeBench 95.4%, Codeforces Elo 3455. 어느 하나 흠잡기 어려운 수치입니다. 구글이 기초 과학과 공학 연구에 진심이라는 건 초기 테스터 사례만 봐도 분명합니다.
다만 이 모드를 쓰려면 월 249달러를 내야 하고, 그 돈을 내도 하루 10번이 전부입니다. 사전 고지 없이 한도가 바뀔 수 있다는 문구도 공식 문서에 명시되어 있습니다. 기대를 낮추자는 게 아니라, 이 조건을 알고 쓰자는 겁니다.
Deep Think가 필요한 사람은 ‘하루 몇 번 쓸 수 있는지’보다 ‘내 문제가 Deep Think 수준인지’를 먼저 따져봐야 합니다. 그 판단이 맞으면 월 249달러는 오히려 싸게 느껴질 수 있습니다.
📎 본 포스팅 참고 자료
- 구글 코리아 공식 블로그 — 제미나이 3 딥 씽크 대규모 업그레이드 발표 (2026.02.12) blog.google
- Google AI for Developers — Gemini 3 개발자 가이드 (thinking_level, 사고 서명, 가격) ai.google.dev
- Google 고객센터 — Google AI 구독자의 Gemini 앱 한도 및 업그레이드 (2026.03 기준) support.google.com
- 9to5Google — Gemini 3 Deep Think gets ‘major upgrade’ (2026.02.12) 9to5google.com
- Google for Developers Korea Blog — 2026년 2월 업데이트 위클리 developers-kr.googleblog.com
본 포스팅 작성 이후 Google AI Ultra 요금제, Deep Think 한도, 모델 스펙, API 정책이 변경될 수 있습니다. 최신 정보는 Google 공식 고객센터 및 Google AI for Developers 문서에서 직접 확인하시기 바랍니다.











댓글 남기기