Gemini 3.1 Pro 기준
IT/AI
Gemini Deep Think, Ultra만 된다고요? 이 수치 먼저 보세요
Gemini Deep Think는 월 36만 원짜리 Ultra 구독자 전용, 하루 10번. 그 말만 보고 넘기셨다면 중요한 부분을 놓친 겁니다. 2026년 2월과 3월에 걸쳐 구조가 조용히 바뀌었고, 공식 수치를 비교해보니 일반 Pro 구독자에게도 실질적인 영향이 있었습니다.
Deep Think가 뭔지, 아직도 헷갈리는 분들을 위해
Gemini Deep Think는 구글이 Gemini 앱 안에 탑재한 특수 추론 모드입니다. 일반 Gemini 3 Pro나 Flash가 질문을 받으면 빠르게 답을 내놓는 방식이라면, Deep Think는 여러 가설을 동시에 병렬로 탐색하고, 각 경로를 비교·수정하면서 최적 답에 도달하는 방식으로 작동합니다.
구글 공식 설명에는 이렇게 나옵니다. “사람이 복잡한 문제를 해결할 때 다양한 관점을 탐색하고, 가능한 해법을 비교하며, 최종적인 답을 정제하는 데 시간을 들이듯, Deep Think는 병렬 사고(parallel thinking) 기법을 통해 사고 능력의 한계를 넓혀갑니다.” (출처: 구글 코리아 공식 블로그, 2025.08.01)
💡 공식 발표 타임라인과 실제 기능 변화를 같이 놓고 보니 이런 흐름이 보였습니다.
2025.08 → Gemini 2.5 Deep Think (Ultra 앱 전용, 제한 공개)
2025.12 → Gemini 3 Deep Think (Ultra 앱 전용, 정식 제공)
2026.02 → Gemini 3 Deep Think 대규모 업그레이드 + API 얼리 액세스
2026.02.19 → Gemini 3.1 Pro (Deep Think 지식 증류 탑재, Pro 요금제 사용 가능)
이 흐름을 알고 나면, “Deep Think = Ultra만 되는 것”이라는 이해가 왜 불완전한지 보입니다. 그 구체적인 이유는 섹션 3에서 다룹니다.
두 달 만에 45.1% → 84.6%, 이게 가능한 이유
이 수치를 처음 봤을 때 오류인가 싶었습니다. ARC-AGI-2는 훈련 데이터로 풀 수 없는, 순수한 추상 추론 능력을 측정하는 벤치마크입니다. 쉽게 말해 “한 번도 본 적 없는 패턴 퍼즐을 풀 수 있는가”를 테스트합니다. 2025년 12월 출시 당시 Deep Think는 45.1%(코드 실행 포함)를 기록했습니다. 그런데 2026년 2월 12일 업그레이드 후 ARC Prize 재단이 독립 검증한 수치는 84.6%였습니다. (출처: 구글 코리아 공식 블로그, 2026.02.12)
+39.5%포인트 상승. 두 달 사이에 이런 도약이 가능했던 건, 단순히 더 많은 데이터를 학습시킨 결과가 아닙니다. 구글이 강화 학습(reinforcement learning) 방식을 새로 개발해서, Deep Think가 더 길고 풍부한 추론 경로를 활용할 수 있도록 아키텍처 자체를 바꿨기 때문입니다.
| 벤치마크 | 2025.12 (출시) | 2026.02 (업그레이드) | 변화 |
|---|---|---|---|
| ARC-AGI-2 | 45.1% | 84.6% | +39.5%p |
| Humanity’s Last Exam (툴 없음) | 41.0% | 48.4% | +7.4%p |
| LiveCodeBench | 미공개 | 95.4% | – |
(출처: 구글 코리아 공식 블로그 2026.02.12, ARC Prize 재단 독립 검증)
ARC-AGI-2는 GPT-5.2도 공개 벤치마크가 없는 분야입니다. 이 점수를 넘어서는 모델이 현재 공개 기준으로 존재하지 않습니다. 단순한 수치가 아니라 추론 방식의 질이 달라졌다는 증거입니다.
Ultra 전용이라는 말, 절반만 맞습니다
Gemini Deep Think 모드 자체는 지금도 Google AI Ultra 전용($249.99/월, 약 36만 원)입니다. 이건 사실입니다. 하루 10개 프롬프트 한도도 공식 지원 문서에 그대로 나와 있습니다. (출처: support.google.com/gemini/answer/16275805)
💡 공식 발표문과 실제 제품 릴리스 흐름을 같이 보니 이런 차이가 보였습니다.
구글은 2026년 2월 19일 Gemini 3.1 Pro를 출시하면서 이렇게 밝혔습니다. “Gemini 3 Deep Think를 구동하는 핵심 지능을 그대로 유지하면서, 이제 여러분의 실용적인 응용 프로그램에 적용할 수 있습니다.” (출처: 구글 코리아 공식 블로그, 2026.02.19) 즉, Deep Think 모드 접근권은 Ultra 전용이지만, 그 추론 능력의 핵심(지식 증류)은 Gemini 3.1 Pro에 탑재되어 Pro 요금제(월 $29.99, 약 4만 원대)에서도 쓸 수 있게 됐습니다.
Gemini 3.1 Pro의 ARC-AGI-2 점수는 77.1%입니다. Deep Think 모드(84.6%)보다는 낮지만, Gemini 3.0 Pro(약 35%)에 비해 2배 이상 높아진 수치입니다. (출처: baehoon.tistory.com, Gemini 3.1 Pro 벤치마크 정리, 2026.03.03) 이 향상의 핵심이 Deep Think 지식 증류라고 구글은 설명합니다.
비교하면 이렇습니다.
| 항목 | Deep Think 모드 | Gemini 3.1 Pro |
|---|---|---|
| 접근 요금제 | Ultra ($249.99/월) | Pro ($29.99/월) 이상 |
| ARC-AGI-2 | 84.6% | 77.1% |
| 일일 한도 | 10개 | 하루 최대 100개 (Pro) |
| 응답 대기 시간 | 수 분 소요 | 상대적으로 빠름 |
| Deep Think 지식 | 풀 버전 | 증류 탑재 |
(출처: Google 공식 지원 문서, 구글 코리아 공식 블로그)
Pro로도 Deep Think의 핵심 추론 능력은 쓸 수 있습니다. 다만 풀 Deep Think 모드가 필요한 경우와 그렇지 않은 경우를 구분하는 게 중요합니다.
하루 10번 한도, 실제로 어떤 의미인가
Ultra를 월 $249.99 내고 쓴다고 가정하면, Deep Think 프롬프트는 하루 10개가 상한입니다. 한 달 기준 최대 300개. 프롬프트당 비용으로 환산하면 약 $0.83, 한화로 약 1,100원꼴입니다.
그런데 Deep Think의 응답이 단순 정보 전달이 아니라, 연구자 수준의 논증 검증이나 알고리즘 설계에 해당한다고 보면 다르게 읽힙니다. 실제로 러트거스 대학 수학자 Lisa Carbone 교수는 Deep Think를 활용해 동료 심사(peer review)에서도 발견되지 않았던 논문의 논리적 결함을 찾아냈습니다. (출처: 구글 코리아 공식 블로그, 2026.02.12) 이런 작업 하나에 하루치 10개 한도 전부를 써도 아깝지 않을 수 있습니다.
반대로 일상적인 요약이나 번역, 짧은 코드 스니펫 생성에 Deep Think를 켜두면 응답까지 수 분이 걸리면서 한도 10개를 그냥 소진합니다. 복잡한 추론이 필요한 작업에만 Deep Think를 켜고, 나머지는 일반 모드로 해결하는 게 핵심입니다.
⚠️ 구글 공식 문서에 명시된 주의사항
“Gemini 앱의 한도는 변경될 수 있습니다. 액세스는 테스트, 실험 또는 사용 가능 여부에 따라 변경되거나 제한될 수 있습니다.” (출처: support.google.com/gemini/answer/16275805)
즉 Deep Think 하루 10개 한도는 사전 공지 없이 줄어들 수 있습니다.
한도 초기화는 매일 점진적으로 이뤄집니다. 한도에 도달하면 Gemini 앱이 초기화 예정 시점을 알려줍니다.
Deep Think를 써야 할 때와 쓰면 손해인 때
공식 활용 가이드와 실제 테스터 피드백을 교차해보면 패턴이 나옵니다. Deep Think가 의미 있는 상황은 정답이 하나로 수렴되지 않는 복잡한 문제입니다. 구글은 이를 세 가지로 정리합니다: 반복적 개발 및 디자인, 과학·수학적 발견, 알고리즘 개발 및 코딩. (출처: 구글 코리아 공식 블로그, 2025.08.01)
| Deep Think 쓸 때 | 일반 모델이 더 나은 때 |
|---|---|
| 수학 증명·논리 검증 | 일상적인 텍스트 요약·번역 |
| 과학 논문 방법론 검토 | 빠른 응답이 필요한 실시간 작업 |
| 경쟁 프로그래밍 수준 알고리즘 문제 | 짧은 코드 스니펫 생성 |
| 물리 시스템 코드 기반 모델링 | 일반 정보 검색·Q&A |
| 분야 간 지식 연결이 필요한 연구 질문 | 이미지·비디오 분석 (텍스트 추론에 특화) |
한 가지 더. Deep Think 업그레이드에서 이미지 관련 벤치마크는 포함되지 않았습니다. 이번 업그레이드가 텍스트 기반 추상 추론에 집중했다는 뜻입니다. 이미지가 주가 되는 작업엔 일반 Gemini 3.1 Pro 쪽이 더 빠르고 효율적입니다.
실전 판단 기준: “이 질문에 대한 답이 여러 방향으로 갈릴 수 있고, 각 방향을 검증해가며 최적을 찾아야 하는가?” 이 조건에 맞으면 Deep Think. 아니면 일반 모드가 훨씬 빠릅니다.
경쟁 모델과 나란히 놓고 본 수치
Humanity’s Last Exam(HLE)은 현재 AI 추론 모델의 실력을 재는 가장 까다로운 공개 벤치마크 중 하나입니다. Deep Think 48.4%, Claude Opus 4.6 40.0%, GPT-5.2 34.5%를 기록했습니다. (출처: memoryhub.tistory.com, 2026.02.13 — 구글 공식 발표 수치 인용) 8%포인트 차이는 벤치마크 숫자로는 커 보이지 않을 수 있지만, HLE 특성상 틀린 문제 하나가 연구 방향 자체를 바꿀 수 있는 난이도입니다.
| 모델 | HLE (툴 없음) | ARC-AGI-2 | Codeforces Elo |
|---|---|---|---|
| Gemini 3 Deep Think | 48.4% | 84.6% | 3,455 |
| Gemini 3.1 Pro | – | 77.1% | 2,887 Elo |
| Claude Opus 4.6 | 40.0% | – | 2,352 |
| GPT-5.2 | 34.5% | – | – |
(출처: 구글 공식 발표 2026.02.12, baehoon.tistory.com 2026.03.03, memoryhub.tistory.com 2026.02.13)
다만 실무 소프트웨어 엔지니어링(SWE-Bench Verified)에선 Claude Opus 4.6이 여전히 강세를 보입니다. Gemini 3.1 Pro 공식 발표(2026.02.19)에서 GPT 대비 코딩 성능 +21%를 제시했지만, Claude Sonnet/Opus 계열과의 실무 개발 비교는 공개 자료에서 별도 이유를 밝히지 않았습니다.
결론적으로, 수학·과학·추상 추론 분야에서 Deep Think가 경쟁 모델을 압도하는 건 수치로 확인됩니다. 다만 실무 코딩·에이전트 작업에서는 모델 선택이 상황에 따라 달라집니다.
자주 나오는 질문 5가지
Q1. Deep Think는 무료로 쓸 수 없나요?
Deep Think 모드 자체는 Google AI Ultra 전용이라 무료 접근이 불가합니다. 다만 Deep Think의 추론 지식이 증류된 Gemini 3.1 Pro는 Google AI Pro($29.99/월) 이상에서 쓸 수 있습니다. 완전 무료 사용자도 Gemini 앱 기본 모드(사고 모델)를 하루 일정 횟수 사용할 수 있으나, Deep Think 토글은 비활성화됩니다.
Q2. Gemini 3.1 Pro와 Deep Think 모드의 체감 차이는 어느 정도인가요?
ARC-AGI-2 기준 77.1%(3.1 Pro) vs 84.6%(Deep Think)로 약 7.5%포인트 차이입니다. 일상적인 복잡한 작업에선 체감이 크지 않을 수 있지만, 수학 증명 검증이나 연구 논문 분석처럼 추론 깊이가 결정적인 작업에선 실질적 차이가 납니다. 응답 속도는 Deep Think가 수 분 소요로 훨씬 느립니다.
Q3. API로도 Deep Think를 쓸 수 있나요?
2026년 2월 12일부터 “선별된 연구자, 엔지니어, 기업”을 대상으로 얼리 액세스 방식으로 API를 제공하기 시작했습니다. 구글 공식 페이지에서 신청할 수 있으며, 일반 공개 시점과 가격은 아직 공개되지 않았습니다. (출처: 구글 코리아 공식 블로그 2026.02.12)
Q4. Deep Think 하루 10개 한도는 고정인가요?
고정이 아닙니다. 구글 공식 지원 문서는 “사전 고지 없이 한도가 변경될 수 있다”고 명시합니다. 실제로 Deep Think 한도(Deep Think 3.1 기준)는 현재 Ultra에서 하루 10개(192,000 토큰 컨텍스트 윈도우)로 공개되어 있으나, 수요 증가 시 조정될 가능성이 있습니다.
Q5. Ultra 구독이 Deep Think만을 위한 가치가 있나요?
솔직히 말하면, 일반 사용자에게는 Deep Think만을 위해 월 36만 원을 지출하기엔 부담이 큽니다. Ultra에는 Deep Think 외에도 하루 동영상 생성 5개(Veo 3.1), 이미지 생성 하루 1,000개, Gemini Agent 일일 200회, 30TB 스토리지, YouTube Premium 등이 포함됩니다. 복잡한 연구·개발 작업을 자주 하거나 Deep Think 기반 에이전트가 필요한 상황이라면 전체 패키지로 판단하는 게 맞습니다.
마치며 — 정리하면 이렇습니다
Gemini Deep Think를 둘러싼 핵심은 두 가지입니다.
첫째, Deep Think 모드의 성능 자체는 벤치마크 역사상 보기 드문 속도로 올라왔습니다. ARC-AGI-2 두 달 만에 45.1%→84.6%는 단순 수치가 아니라 추론 아키텍처의 질적 변화를 반영합니다. 이건 수학·과학·알고리즘 문제를 자주 다루는 분이라면 주목할 만합니다.
둘째, Deep Think = Ultra 전용이라는 이해는 이미 구식입니다. 2026년 2월 19일부터 Deep Think 핵심 지식이 증류된 Gemini 3.1 Pro가 Pro 요금제에서도 작동하고 있고, 벤치마크 수치는 이전 세대 Pro 대비 2배 이상입니다. Ultra가 필요한 사람과 Pro로 충분한 사람의 기준이 이제 더 명확해졌습니다.
개인적으로는 Ultra의 하루 10회 Deep Think 한도가 조금 빠듯하게 느껴집니다. 복잡한 작업 하나에 여러 번 주고받아야 하는 경우를 생각하면, 이 한도가 사전 공지 없이 바뀔 수 있다는 점도 부담입니다. 그래도 지금까지 나온 AI 추론 모드 중 공개 수치 기준으로는 가장 높은 성능이라는 건 부정하기 어렵습니다.
✅ 한 줄 요약: Deep Think 모드가 필요한 복잡한 추론 작업이라면 Ultra, 그렇지 않으면 Deep Think가 증류된 Gemini 3.1 Pro(Pro 요금제)로 충분합니다.
📚 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Google AI 요금제·한도·모델 기능은 사전 고지 없이 변경될 수 있으므로, 최신 정보는 공식 지원 문서를 직접 확인하시기 바랍니다.


댓글 남기기