Gemini Deep Think, 하루 10개가 전부입니다 — 공식 수치로 확인
월 36만 원짜리 Ultra 구독을 해야 쓸 수 있는데, 실제로 하루 10번이 전부입니다. HLE 48.4%, ARC-AGI-2 84.6%라는 벤치마크 숫자와 실제 사용 조건은 꽤 다른 이야기를 합니다. 공식 문서와 수치를 직접 교차해서 확인했습니다.
ARC-AGI-2 84.6%
Ultra 전용
하루 10개 한도
Deep Think가 뭔지부터 짚고 넘어가야 하는 이유
Gemini Deep Think는 2026년 2월 12일, 구글이 2025년 11월 첫 출시 이후 대규모 업그레이드를 단행하며 공개한 전문 추론 모드입니다. (출처: Google 공식 블로그, 2026.02.12) 단순히 더 똑똑한 Gemini 버전이 아니라, 수학·과학·공학 분야의 실제 연구 수준 과제를 다루도록 설계된 별도의 사고 레이어입니다. 쉽게 말하면 Gemini 3 Pro라는 자동차에서 ‘터보 부스터’를 켜는 방식인데, 이 부스터를 켤 수 있는 조건이 생각보다 까다롭습니다.
구글은 Deep Think가 “현실 세계의 문제들은 명확한 가이드라인이나 단 하나의 정답이 없는 경우가 많다”는 전제에서 출발했다고 밝혔습니다. 럿거스 대학교 수학자 리사 카본(Lisa Carbone) 팀이 동료 평가에서도 지나쳤던 논리적 오류를 Deep Think로 잡아냈고, 듀크 대학교 왕 연구실은 초전도체 연구에서 100µm 이상 박막 성장 레시피를 설계하는 데 활용했습니다. (출처: Google 공식 블로그, 2026.02.12) 연구소급 사용 사례이지만, 이것이 일반 구독자에게도 그대로 적용되느냐는 별개의 이야기입니다.
자주 오해하는 지점이 하나 있습니다. Gemini 앱에서 쓸 수 있는 ‘사고 모델(Thinking)’과 Deep Think는 다릅니다. 사고 모델은 AI Pro 구독자도 하루 최대 300개 프롬프트까지 쓸 수 있지만, Deep Think는 Ultra 구독자에게만, 하루 최대 10개로 별도 운영됩니다. (출처: Google 지원 문서 answer/16275805) 같은 이름처럼 보여도 전혀 다른 할당 풀입니다.
공식 벤치마크 숫자, 어떻게 읽어야 하나
구글이 발표한 공식 수치는 인상적입니다. Humanity’s Last Exam(HLE, 툴 없이) 48.4%, ARC-AGI-2 84.6%, LiveCodeBench 95.4%입니다. (출처: Google 공식 블로그, 2026.02.12) HLE는 현대 AI 프런티어 모델의 한계를 테스트하도록 설계된 벤치마크이고, 84.6%라는 ARC-AGI-2 수치는 “전례 없는(unprecedented)” 표현이 붙을 만큼 높습니다.
💡 공식 발표 수치와 일반 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
ARC-AGI-2에서 Deep Think가 84.6%를 기록했다는 것은 에이전트 버전(연구원·기업 얼리 액세스) 기준입니다. 일반 Ultra 구독자가 Gemini 앱에서 쓰는 Deep Think의 ARC-AGI-2 점수는 45.1%입니다. (출처: evolink.ai 벤치마크 분석, 2025.12.26) 같은 Deep Think이지만 두 수치 사이에 거의 두 배 격차가 납니다.
더 직접적으로 비교하면, 같은 벤치마크에서 GPT-5.2는 ARC-AGI-2 54.2%를 기록합니다. Gemini 앱용 Deep Think의 45.1%보다 높습니다. “구글 추론이 1위”라는 말은 에이전트 버전 기준입니다. 일반 사용자 수준에서는 OpenAI의 추론 우위가 여전히 유효합니다. 숫자 하나가 어느 조건에서 나온 것인지 모르면 완전히 다른 결론이 나옵니다.
| 벤치마크 | Deep Think (에이전트) | Deep Think (앱) | GPT-5.2 |
|---|---|---|---|
| ARC-AGI-2 | 84.6% | 45.1% | 54.2% |
| HLE | 48.4% | 41.0% | 34.5% |
| LiveCodeBench | 95.4% | ~76% | 74.9% |
(출처: Google 공식 블로그 2026.02.12 / evolink.ai 벤치마크 분석 2025.12.26)
Ultra 구독 안 하면 쓸 수 없는 조건들
Deep Think는 Google AI Ultra 구독자에게만 열립니다. 나무위키에서는 “한 달에 36만 원을 지불해야 하는 Google AI Ultra를 구독해야 쓸 수 있다”고 정리하고 있습니다. 공식 페이지 기준 Google AI Ultra는 월 $249.99(약 36만 원)이고, 신규 사용자에게는 첫 3개월 50% 할인이 적용됩니다. (출처: one.google.com/intl/ko_kr/about/google-ai-plans/) 월 36만 원이면 ChatGPT Pro($200/월)보다도 높은 금액입니다.
AI Pro 플랜($19.99/월, 약 3만 원)에서는 Deep Think를 쓸 수 없습니다. Pro 구독자가 쓸 수 있는 건 일반 사고 모델(Thinking, 하루 300개)뿐이고, Deep Think는 완전히 다른 카테고리입니다. 구글 공식 지원 문서의 표를 보면 Deep Think 3.1 항목 아래 Pro 열은 비어 있고, Ultra 열에만 “하루 최대 프롬프트 10개(192,000개 토큰 컨텍스트 윈도우 제공)”라고 적혀 있습니다. (출처: Google 지원 문서 answer/16275805) 이 조건을 모르고 Pro 구독하면 아무리 세팅해도 Deep Think 버튼 자체가 보이지 않습니다.
💡 요금제별 차이를 나란히 놓으면 이렇게 됩니다
Free 기준: 사고 모델 기본 접근, Deep Think 없음 / AI Pro($19.99): 사고 모델 하루 300개, Deep Think 없음 / AI Ultra($249.99): 사고 모델 하루 1,500개 + Deep Think 하루 10개. 이 세 가지 중 Deep Think가 열리는 건 오직 마지막 하나뿐입니다.
그리고 Ultra를 구독해도 Deep Think는 하루 10개입니다. 구글이 “최고 수준의 한도”라고 표현하지만, 10개는 2025년 8월에 기존 5개에서 두 배로 늘어난 결과입니다. (출처: @GeminiApp 공식 X, 2025.08.14) 반년이 지나도 10개에서 더 늘지 않았습니다. 36만 원을 내고 받는 Deep Think 사용권은 하루 10번입니다.
하루 10개 한도, 실제로 어떻게 쓰이나
Deep Think 공식 한도는 하루 10개, 컨텍스트 윈도우는 192,000 토큰입니다. (출처: Google 지원 문서 answer/16275805) 192K 토큰은 약 140페이지 분량의 텍스트에 해당합니다. 꽤 넉넉해 보이지만, 앞서 언급한 Ultra 전체 한도(Gemini 3.1 Pro 하루 500개)와 비교하면 Deep Think만 의도적으로 극히 제한적으로 운영 중입니다.
실사용 측면에서 가장 자주 언급되는 한계는 속도입니다. Deep Think 모드로 전환하면 응답 대기 시간이 10~15초 이상으로 늘어납니다. (출처: Skywork AI 실사용 리뷰) “생각하는 중” 상태가 길게 이어지는데, 빠른 답변에 익숙한 환경에서는 체감 불편이 큽니다. 복잡한 논문 리뷰나 코드 디버깅처럼 깊은 분석이 필요한 작업이라면 감수할 수 있지만, 이메일 정리나 간단한 요약에는 맞지 않습니다.
하루 10개를 효율적으로 쓰려면 용도를 좁혀야 합니다. 일반 추론은 사고 모델(하루 1,500개)로, 표준 응답은 빠른 모델(3 Flash, 무제한)로 처리하고, Deep Think는 진짜로 막히는 수학·코딩·연구 분석 과제에만 투입해야 합니다. 이걸 모르고 Deep Think를 켜두고 쓰다 보면 오전 중에 한도를 다 쓸 수 있습니다. 한도는 매일 초기화되지만, 초기화 시점은 하루 동안 점진적으로 이루어집니다. (출처: Google 지원 문서 answer/16275805)
GPT-5.2 추론 모드와 나란히 놓으면 보이는 것
경쟁 구도에서 Deep Think를 이해하려면 GPT-5.2의 Thinking 모드와 비교해야 합니다. 가장 큰 구조적 차이는 접근 방식입니다. GPT-5.2는 reasoning “dial”을 none → minimal → low → medium → high → xhigh 여섯 단계로 세분화해서 사용자가 상황별로 조절할 수 있습니다. Deep Think는 켜거나 끄는 이분법입니다. 구체적인 제어 자유도에서 GPT-5.2가 앞섭니다.
비용 구조도 다릅니다. GPT-5.2 Thinking은 API 토큰 기준으로 “thinking tokens”가 출력 토큰과 동일하게 과금됩니다. 추론을 깊이 쓸수록 비용이 3~5배까지 오를 수 있습니다. (출처: evolink.ai 비교 분석, 2025.12.26) Deep Think는 앱 기준으로 하루 10개라는 횟수 제한이 있지만 추가 과금 없이 Ultra 정액 안에 포함됩니다. API로 Deep Think를 쓰면 별도 과금이 발생합니다. 용도와 사용 패턴에 따라 어느 쪽이 더 유리한지 달라집니다.
💡 두 모델의 추론 방식을 병렬로 따라가다 보니 놓치기 쉬운 차이가 있었습니다
Deep Think는 2M 토큰 컨텍스트 윈도우를 갖춘 Gemini 3 Pro 위에서 작동합니다. GPT-5.2의 컨텍스트는 400K 토큰입니다. 아주 긴 문서(논문 50개, 코드 전체 저장소 등)를 넣고 Deep Think를 돌리면 이 차이가 결과에 직접 반영됩니다. 반대로 짧고 압축된 추론 과제라면 GPT-5.2의 ARC-AGI-2 우위가 더 잘 드러납니다.
결론적으로, “어느 게 더 잘 생각하나”는 과제 유형에 따라 갈립니다. 논문 수십 편을 같이 참조하면서 Deep Think를 쓰면 Deep Think가 유리합니다. 새로운 알고리즘을 설계하거나 추상 추론이 핵심인 문제라면 GPT-5.2 xhigh가 더 적합할 수 있습니다. 두 모델 모두 월 20만 원 이상 플랜 가입자에게만 해당하는 이야기입니다.
Deep Think를 제값어치 뽑는 조건
직접 써보고 나서 솔직하게 말하면, Deep Think가 빛나는 순간은 세 가지로 좁혀집니다. 첫째, 정답이 하나가 아니고 데이터가 불완전한 연구 과제입니다. 구글이 공개한 테스트 사례처럼 전문 학술 논문의 논리 오류 검증이나 복잡한 결정 성장 레시피 설계 같은 작업이 여기 해당합니다. 단계별로 분해하고 함정 요소를 스스로 찾아내는 능력은 일반 Thinking 모드와 체감 차이가 납니다.
둘째, 긴 컨텍스트가 필수인 작업입니다. 논문 50편이나 전체 코드 저장소를 올려두고 Deep Think에 분석을 맡기면 2M 토큰 컨텍스트 우위가 실제로 발휘됩니다. 셋째, 코딩에서 막히는 단일 고난도 버그입니다. LiveCodeBench 95.4%라는 수치는 과장이 아닙니다. 일반 모드에서 몇 차례 시도해도 안 풀리던 문제가 Deep Think 한 번에 해결되는 경우가 있습니다.
반면 Deep Think를 쓰지 않아도 되는 상황이 더 많습니다. 이메일 요약, 간단한 문서 작성, 빠른 검색 대체용 질의는 빠른 모델(Flash)이나 사고 모델로 충분합니다. 하루 10개라는 한도를 고려하면 ‘아까워서라도’ 쉬운 일에 쓰지 않게 됩니다.
마지막으로 Gemini Agent 기능(Deep Think와 결합되는 에이전트 오케스트레이션)은 현재 미국, 영어만 지원합니다. (출처: Google AI 요금제 공식 페이지) 한국에서 Ultra를 구독하더라도 Gemini Agent는 쓸 수 없습니다. 에이전트 버전에서 84.6%를 찍은 ARC-AGI-2 점수는 국내에서 재현할 수 없는 조건입니다. 이 부분은 공식 페이지에서 별도 이유를 밝히지 않았습니다.
Q&A 5가지
Q1. Deep Think는 무료로 쓸 수 없나요?
쓸 수 없습니다. 공식 문서 기준 Deep Think 3.1은 Google AI Ultra 구독자에게만 제공됩니다. 무료 티어와 AI Pro에서는 Deep Think 버튼 자체가 표시되지 않습니다. (출처: Google 지원 문서 answer/16275805)
Q2. 하루 10개 한도는 왜 이렇게 적은가요?
구글이 공식 답변을 내놓지 않은 부분입니다. 다만 Deep Think 응답 한 건당 소모되는 컴퓨팅 자원이 일반 모델보다 훨씬 크기 때문에 제한을 두는 것으로 보입니다. 2025년 8월에 5개에서 10개로 늘어난 이력이 있고, 향후 추가 조정 가능성은 열려 있습니다. (출처: @GeminiApp 공식 X, 2025.08.14)
Q3. ARC-AGI-2 84.6%는 일반 사용자도 경험할 수 있나요?
이 수치는 연구원·기업 대상 얼리 액세스 프로그램의 API 버전(에이전트 오케스트레이션 포함) 기준입니다. Gemini 앱에서 Ultra 구독자가 쓰는 Deep Think의 ARC-AGI-2 점수는 45.1%로 다릅니다. (출처: evolink.ai 벤치마크 비교, 2025.12.26)
Q4. 한국에서 Google AI Ultra 가격은 얼마인가요?
공식 페이지 기준 월 $249.99(약 36만 원)이며, 신규 가입자는 첫 3개월 50% 할인이 적용됩니다. 한국(대한민국)은 Ultra 사용 가능 국가에 포함되어 있습니다. (출처: one.google.com/intl/ko_kr/about/google-ai-plans/)
Q5. Gemini Agent와 Deep Think는 다른 기능인가요?
다른 기능입니다. Gemini Agent는 웹 자동화(여행 예약, 장보기 등)를 처리하는 에이전트 기능이고, Deep Think는 복잡한 추론을 심화하는 사고 모드입니다. Agent는 현재 미국, 영어 전용이고, Deep Think는 Ultra 구독자라면 국내에서도 사용 가능합니다. (출처: Google AI 요금제 공식 페이지)
마치며 — 총평
Gemini Deep Think는 분명히 강력합니다. HLE 48.4%, LiveCodeBench 95.4%는 숫자를 보면서 흥분하게 됩니다. 그런데 실제로 써보면 흥분이 가라앉는 조건들이 붙습니다. Ultra 전용, 하루 10개, 에이전트 버전은 한국에서 미지원, 벤치마크 최고 수치는 일반 앱이 아닌 별도 버전 기준.
솔직히 말하면, 월 36만 원을 내고 Deep Think 10번을 쓰는 게 맞는 사람은 정말 제한적입니다. 박사 논문을 쓰거나, 학술 연구를 진행하거나, 복잡한 코드베이스를 매일 분석하는 사람이라면 투자 가치가 있습니다. 업무에서 AI를 가볍게 쓰는 정도라면 AI Pro(월 2만 원대)의 사고 모델 300개가 훨씬 더 실용적입니다.
개인적으로 가장 아쉬운 지점은 Gemini Agent와 Deep Think가 연계된 에이전트 버전이 한국에서 지원되지 않는다는 부분입니다. 84.6%라는 수치를 만들어낸 조합이 국내에서는 경험할 수 없습니다. 이 부분이 해결되는 시점이 되면 Deep Think의 가치 평가도 달라질 것 같습니다.
📚 본 포스팅 참고 자료
- Google 공식 블로그 — 제미나이 3 딥 씽크 업그레이드 발표 (2026.02.12) blog.google
- Google 지원 문서 — Google AI 구독자의 Gemini 앱 한도 및 업그레이드 support.google.com
- Google One 공식 요금제 페이지 — Google AI Plus / Pro / Ultra 비교 one.google.com
- evolink.ai — Gemini 3 Pro vs GPT-5.2 벤치마크 비교 (2025.12.26) evolink.ai
- Skywork AI — Gemini 3.0 장단점 실사용 리뷰 skywork.ai
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Deep Think 한도, 요금제 가격, 지원 국가 등은 Google의 정책 변경에 따라 달라질 수 있으므로 최신 정보는 공식 페이지에서 확인해 주세요. 본 포스팅은 2026.03.22 기준으로 작성되었습니다.


댓글 남기기