Gemini 3 Deep Think 3.1 기준
IT/AI
Gemini 3 Deep Think,
하루 10개가 전부입니다
ARC-AGI-2 84.6%, 코딩 95.4% — 숫자는 인상적입니다. 그런데 막상 구독하면 하루에 10번밖에 못 씁니다. 이걸 먼저 알고 시작해야 합니다.
Deep Think가 뭔지, 정확히 알고 씁시다
Gemini 3 Deep Think는 구글이 2026년 2월 12일 공식 공개한 전문 추론 모드입니다. 기존 Gemini 3 Pro 기반이지만 작동 방식이 다릅니다. 일반 Gemini 3 Pro가 빠른 답변을 우선하는 방식이라면, Deep Think는 답변 전에 더 오래 “생각”하는 단계를 거칩니다. 프롬프트 입력 후 답이 나오기까지 체감 시간이 눈에 띄게 길어집니다.
구글이 공식적으로 밝힌 타깃 사용 영역은 과학, 공학, 수학 연구입니다. 기업용 API 얼리 액세스 신청도 동시에 열렸습니다. 일반 소비자 대상으로는 Google AI Ultra 구독 전용으로 제공됩니다. (출처: 구글 공식 블로그, 2026.02.12)
한 가지 오해가 있습니다. 많은 분들이 “Gemini 3.1 Pro = Deep Think”로 혼동하는데, 실제로는 별도 모드입니다. Gemini 3.1 Pro는 2026년 2월 19일 정식 출시된 업그레이드 기본 모델이고, Deep Think는 그 위에 올라타는 추론 강화 레이어입니다. 두 개 모두 Ultra 구독자가 쓸 수 있지만, 한도는 완전히 다르게 적용됩니다.
벤치마크 수치, 실제로 무슨 뜻인가
발표문에 적힌 숫자들을 그냥 넘기면 아깝습니다. ARC-AGI-2 84.6%라는 수치가 특히 의미심장합니다. ARC-AGI-2는 인간이 쉽게 푸는 패턴 인식 문제를 AI가 얼마나 잘 해결하는지 보는 벤치마크인데, 이전 세대 모델들이 30~50%대에 머물렀던 점을 고려하면 84.6%는 실질적인 도약입니다. 단순히 “잘 외운 것”이 아니라 패턴 자체를 추론했다는 뜻이어서 의미가 다릅니다. (출처: 구글 공식 블로그, 2026.02.12)
💡 공식 발표 수치와 실제 사용 환경을 같이 놓고 보니 이런 차이가 보였습니다 — 벤치마크는 단일 쿼리 기준이지만, 실사용은 연속 대화 문맥 안에서 이뤄집니다. 벤치마크가 높아도 문맥 누적에 따라 성능이 달라집니다.
| 벤치마크 | Deep Think 3.1 | 이전 최고치(참고) | 측정 영역 |
|---|---|---|---|
| ARC-AGI-2 | 84.6% | 약 52~60%대 | 패턴 추론 |
| LiveCodeBench | 95.4% | 80~90%대 | 코딩 성능 |
| Humanity’s Last Exam | 48.4% | 30~40%대 | 극도의 전문 지식 |
| CMT-Benchmark | 50.5% | 공개 비교 미확인 | 고급 이론 물리학 |
※ 표 내 수치는 구글 공식 블로그(2026.02.12) 기준. 이전 최고치는 공개 리더보드 기반 추정치.
Humanity’s Last Exam 48.4%는 “절반도 못 맞힌다”는 뜻이 아닙니다. 이 벤치마크는 인류의 가장 어려운 전문 지식을 테스트하도록 설계됐고, 사람 전문가들도 자기 분야 바깥에선 30% 내외를 기록합니다. 48%를 넘겼다는 건 벽을 넘기 시작했다는 의미입니다.
Ultra 구독해도 하루 10개 — 이 구조를 먼저 봐야 합니다
솔직히 이 부분이 가장 중요합니다. Deep Think 3.1은 Google AI Ultra 구독자 전용이고, 울트라 요금제는 한국 기준 월 249,900원입니다. 그런데 울트라를 구독해도 Deep Think 3.1의 하루 사용 한도는 10개 프롬프트입니다. 이건 마케팅 문구가 아니라 공식 지원 페이지에 표로 나와 있는 수치입니다. (출처: Google 지원 페이지 — Gemini 앱 한도 및 업그레이드, 2026.03 기준)
⚠️ 한 달 249,900원 내고 Deep Think를 쓸 수 있는 횟수는 하루 최대 10번입니다.
컨텍스트 윈도우도 192,000 토큰으로 제한됩니다. Pro 3.1의 100만 토큰과 비교하면 훨씬 좁습니다.
반면 Gemini 3.1 Pro는 같은 울트라 구독에서 하루 500개 프롬프트를 쓸 수 있습니다. 사고 모델(Thinking)은 하루 1,500개까지 됩니다. Deep Think만 하루 10개로 강하게 제한된 구조입니다. 비용이 극도로 높은 연산을 요구하는 모드이기 때문으로 보이지만, 구글이 공식 이유를 따로 밝히지 않은 부분입니다.
💡 한 달 249,900원 ÷ Deep Think 10개/일 × 30일 = 약 300번. 1회당 약 833원 꼴입니다. 무거운 추론 작업용으로만 쓰면 납득이 가지만, 일상적인 질문에 Deep Think를 남발하면 금방 바닥납니다.
‘틀렸음을 인정하는’ 기능이 왜 중요한가
DeepMind가 공개한 논문에서 가장 눈에 띈 부분이 있습니다. 구글이 Deep Think 위에 구축한 수학 연구 에이전트 ‘Aletheia’는 문제를 풀지 못했을 때 “풀 수 없음”을 선언하는 기능을 갖추고 있습니다. (출처: DeepMind 공식 블로그, 2026.02.11) 이게 사소해 보이지만 사실 중요합니다.
기존 AI 모델들은 틀린 답을 자신 있게 내놓는 경향이 있었습니다. 특히 데이터가 부족한 전문 영역에서 “그럴듯한 오답”을 만들어내는 현상이 반복됐습니다. Aletheia가 “모르겠다”고 선언하면 에이전트가 다시 Generator → Verifier 루프를 돌면서 재시도합니다. 이 루프 구조 덕분에 연구자가 오류 문제 풀이를 믿고 시간을 낭비하는 상황을 줄일 수 있었습니다.
💡 일반 사용자가 쓰는 Gemini 앱의 Deep Think와 연구용 Aletheia 에이전트는 구조가 다릅니다. Aletheia는 API 기반이고 얼리 액세스 신청이 필요합니다. 앱에서 켜는 Deep Think 토글과 동일하게 생각하면 기대치가 어긋납니다.
미국 럿거스 대학교의 수학자 리사 카본(Lisa Carbone)은 Deep Think를 활용해 논문의 미묘한 논리적 오류를 찾아냈습니다. 동료 평가에서도 발견되지 않았던 오류였습니다. (출처: 구글 공식 블로그, 2026.02.12) 이는 “AI가 대신 쓴다”는 개념이 아니라 “AI가 검토 파트너”로 기능하는 구체적 사례입니다.
10년 된 수학 직관을 깨버린 사례 — 직접 확인했습니다
DeepMind 공식 논문(arXiv: 2602.03837)에 소개된 사례 중 하나가 특히 흥미롭습니다. 2015년에 나온 이론 논문은 “데이터 스트림에서 들어오는 아이템의 복사본을 만드는 것보다 원본을 그냥 이동하는 것이 항상 가치가 낮다”는 직관적인 규칙을 제안했습니다. 10년 동안 전문가들이 이것이 옳다고 믿었지만 수학적으로 증명하지는 못했습니다.
Deep Think는 세 가지 아이템을 조합한 구체적인 반례(counterexample)를 생성해, 이 10년 된 직관이 틀렸음을 엄밀하게 증명했습니다. (출처: DeepMind 공식 블로그 / arXiv:2602.03837, 2026.02.11) 10년 동안 인간이 믿어온 직관이 아닌, 수학적 반례였습니다.
💡 DeepMind 논문에서 Gemini Deep Think는 수학 분야에서 AI 기여 수준을 0~4 단계로 분류했습니다. 현재까지 달성된 최고 수준은 Level 2(“출판 가능한 품질”)이며, Level 3(“주요 발전”)이나 Level 4(“획기적 혁신”)는 아직 주장하지 않는다고 명시했습니다. 이 투명한 자기 한계 설정이 오히려 신뢰를 높입니다.
IMO(국제수학올림피아드) 금메달 수준, 국제물리올림피아드 및 화학올림피아드 금메달 수준 달성은 추론 능력이 실제로 바뀌었다는 증거입니다. 단순히 더 빠르거나 말이 되는 수준이 아니라, 문제의 구조 자체를 해석하는 방식이 달라진 것입니다. (출처: 구글 공식 블로그, 2026.02.12)
실제로 어떤 사람에게 맞는가
Deep Think를 쓰기에 맞는 상황과 안 맞는 상황은 생각보다 명확합니다. 구글이 설계한 목적이 뚜렷하기 때문입니다.
✅ 이런 상황에선 효과적입니다
- 논문 논리 오류 검토
- 복잡한 알고리즘 설계 및 반례 탐색
- 수학 증명 초안 검증
- 여러 변수가 얽힌 공학 시뮬레이션 설계
- 3D 프린팅용 스케치 → STL 변환
❌ 이런 용도엔 맞지 않습니다
- 일상 요약, 번역, 글쓰기 보조
- 빠른 정보 검색
- 이메일 초안 작성
- 반복적인 단순 코딩 질문
- 하루 10개가 아까운 경량 질문
Reddit 커뮤니티에서 가장 많이 나온 불만은 “Ultra 구독자임에도 Deep Think 사용을 제한하는 건 납득하기 어렵다”는 것이었습니다. ChatGPT Pro와 비교하며 형평성 문제를 제기하는 의견도 있었습니다. 구글이 공식 답변을 내놓지 않은 부분입니다. 다만 추론에 들어가는 컴퓨팅 비용을 감안하면 한도 제한의 맥락이 이해는 됩니다.
Q&A — 많이 물어보는 것들
Q1. Deep Think는 무료로 쓸 수 없나요?
무료입니다. 정확히는 ‘불가능’입니다. Google AI Ultra 구독자 전용 기능입니다. Plus나 Pro 구독으로는 접근이 안 됩니다. API를 통한 얼리 액세스 신청은 연구자·기업 대상으로 별도 운영되고 있습니다. (출처: 구글 공식 블로그, 2026.02.12)
Q2. 하루 10개 한도, 초과하면 어떻게 되나요?
한도 초과 시 Deep Think 모드를 선택할 수 없게 됩니다. 대신 일반 Gemini 3.1 Pro(하루 500개 한도)로 대화를 계속할 수 있습니다. 한도는 하루 단위로 점진적으로 초기화됩니다. (출처: Google 지원 페이지, 2026.03 기준)
Q3. Gemini 3.1 Pro와 Deep Think 3.1, 뭐가 더 낫나요?
목적이 다릅니다. 일상 업무, 코딩 보조, 긴 문서 분석은 3.1 Pro(컨텍스트 100만 토큰)가 낫습니다. 수학 증명, 복잡한 과학 문제, 장기적 다단계 추론은 Deep Think(컨텍스트 192,000 토큰이지만 추론 깊이 다름)가 특화되어 있습니다. 한도와 컨텍스트 크기를 함께 고려해야 합니다.
Q4. API 얼리 액세스 신청은 누구나 할 수 있나요?
구글 공식 신청 폼을 통해 일부 연구원, 엔지니어, 기업을 대상으로 선별 제공됩니다. 2026년 2월 12일부터 신청이 열렸지만 일반 대중 전체에 개방된 것은 아닙니다. 승인 기준은 이유가 아직 공개되지 않았습니다. (출처: 구글 공식 블로그, 2026.02.12)
Q5. Deep Think가 연구 논문을 대신 써주는 건가요?
DeepMind 논문에서 AI 기여 분류를 4단계로 나눴을 때, 현재까지 달성된 최고 수준은 Level 2(“출판 가능한 품질”)입니다. 연구자가 방향을 제시하고 AI가 증명 과정을 보조하거나 검증하는 “협력” 구조입니다. AI가 혼자 논문을 쓰는 Level 3~4는 아직 공식적으로 주장하지 않습니다. (출처: arXiv:2602.10177, 2026.02)
마치며
Gemini 3 Deep Think는 벤치마크 수치만 보면 실제로 인상적입니다. ARC-AGI-2 84.6%, LiveCodeBench 95.4%는 그냥 나온 숫자가 아닙니다. 10년 묵은 수학 직관을 반례로 뒤집고, 물리 올림피아드 금메달 수준의 추론을 보여줬습니다.
다만 이걸 내 일상 업무에 쓰는 도구로 바라본다면, 하루 10개라는 한도부터 머릿속에 박아둬야 합니다. 249,900원짜리 구독을 했어도 Deep Think는 소중하게 써야 하는 자원입니다. 무거운 추론이 꼭 필요한 작업에만 아껴두고, 나머지는 Gemini 3.1 Pro로 처리하는 조합이 현실적입니다.
솔직히 말하면, Deep Think는 지금 단계에서 연구자·공학자·고급 개발자에게 훨씬 잘 맞습니다. 일반 사용자가 “가장 비싼 구독에 포함된 기능”으로 기대하고 쓰기엔 한도가 빠듯합니다. 구글이 이 구조를 앞으로 어떻게 바꿀지가 Deep Think의 진짜 가치를 결정할 것 같습니다.
본 포스팅 참고 자료
- 구글 공식 블로그 — 제미나이 3 딥 씽크 발표
https://blog.google/intl/ko-kr/company-news/technology/gemini-3-deep-think/ - DeepMind 공식 블로그 — Gemini Deep Think 수학·과학 연구 적용
https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/ - Google 지원 페이지 — Gemini 앱 한도 및 업그레이드
https://support.google.com/gemini/answer/16275805?hl=ko-KR - arXiv 논문 — Towards Autonomous Mathematics Research (Feng et al., 2026)
https://arxiv.org/abs/2602.10177 - arXiv 논문 — Accelerating Scientific Research with Gemini (Woodruff et al., 2026)
https://arxiv.org/abs/2602.03837
본 포스팅은 2026년 3월 23일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 공식 사이트에서 최신 내용을 확인하세요.






댓글 남기기