IT / AI · 2026.03.14

AI Ultra 없이 못 쓰는 이유

2026년 2월 12일 구글이 공개한 Gemini 3 Deep Think 업그레이드는 단순한 업데이트가 아닙니다. ARC-AGI-2 벤치마크 84.6%, 인류의 마지막 시험(Humanity’s Last Exam) 48.4%라는 전인미답의 수치를 달성하며 AI 추론의 경계를 다시 그었습니다. 그런데 정작 국내 한국어 심층 가이드는 거의 없습니다. 이 글에서 핵심만 짚겠습니다.

ARC-AGI-2 · 84.6%
LiveCodeBench · 95.4%
AI Ultra 전용
2026.02.12 출시

💡 Deep Think란 무엇인가 — 생각하는 AI의 구조

Gemini 3 Deep Think는 구글 딥마인드가 개발한 전문 추론 모드로, 일반적인 언어 모델이 ‘즉각적으로 답변을 생성’하는 것과 달리 응답 전에 내부적으로 수십 단계의 논리적 사고 과정을 거칩니다. 이른바 ‘생각하는 토큰(Thinking Token)’이라 불리는 내부 추론 흔적을 먼저 생성한 뒤 최종 답변을 출력하는 방식입니다.

2025년 11월 Gemini 3가 처음 공개될 때 Deep Think도 함께 소개되었지만, 당시에는 매우 제한적인 실험 기능에 불과했습니다. 2026년 2월 12일 발표된 이번 대규모 업그레이드에서 구글은 이 모드를 ‘현실 세계의 과학 연구와 공학 문제’를 직접 다룰 수 있는 수준으로 끌어올렸다고 밝혔습니다. 럿거스 대학교 수학자가 동료 평가(Peer Review)에서도 놓친 논문의 논리적 오류를 Deep Think가 발견했고, 듀크 대학교 연구팀은 초전도체 물질 발견을 위한 결정(crystal) 성장 공정 최적화에 Deep Think를 활용했습니다.

개인적으로 흥미로운 점은, 이 모드가 단순히 ‘더 오래 생각한다’는 개념이 아니라는 점입니다. 구글은 Deep Think를 통해 AI가 불완전하거나 정리되지 않은 데이터 환경에서도 스스로 가설을 세우고 검증하는 방식을 훈련했다고 강조합니다. 기존 AI가 깨끗하게 정제된 질문에만 잘 대답했다면, Deep Think는 실제 연구 현장처럼 지저분하고 불확실한 환경에서도 작동하도록 설계되었다는 것이 핵심입니다.

📌 핵심 요약: Deep Think = 일반 Gemini 응답 × 내부 다단계 추론 과정. 응답이 수 분 걸릴 수 있으나 복잡한 과학·수학·코딩 문제에서 정밀도가 압도적으로 높아집니다.

▲ 목차로 돌아가기

📊 벤치마크 실체 분석 — 84.6%가 의미하는 것

이번 업그레이드에서 가장 주목해야 할 수치는 ARC-AGI-2에서 84.6%라는 기록입니다. ARC-AGI-2는 AI가 학습한 적 없는 완전히 새로운 논리 패턴을 보고 규칙을 스스로 발견해내는 능력을 측정하는 벤치마크로, AGI(범용인공지능) 연구자들이 ‘마지막 관문’이라고 부를 만큼 극도로 어렵습니다. Gemini 3.1 Pro의 77.1%도 이미 전 세계 최고 수준이었는데, Deep Think 전용 모드에서는 그것을 뛰어넘는 84.6%가 나온 것입니다.

벤치마크	Deep Think	Gemini 3.1 Pro	측정 역량
ARC-AGI-2	84.6%	77.1%	미학습 논리 추론
Humanity’s Last Exam	48.4%	미공개	전인미답 학술 난제
LiveCodeBench	95.4%	미공개	실시간 코딩 성능
CMT-Benchmark	50.5%	미공개	고급 이론 물리학

특히 LiveCodeBench 95.4%는 솔직히 충격적인 수치입니다. 이는 실시간으로 업데이트되는 코딩 문제 풀이 벤치마크라서 학습 데이터 누수가 거의 불가능한데, 그 환경에서 95%를 넘겼다는 것은 실제 소프트웨어 개발 현장에서의 버그 수정·코드 생성 능력이 사실상 시니어 개발자 수준에 근접했음을 시사합니다. 다만 벤치마크와 실전은 다르며, 구글이 스스로 발표한 수치라는 점에서 독립적인 검증이 필요하다는 것은 항상 유의해야 합니다.

또한 ‘인류의 마지막 시험(Humanity’s Last Exam)’에서 48.4%를 기록한 것도 눈여겨볼 만합니다. 이 벤치마크는 세계 각지의 박사급 전문가들이 제출한 문제로 구성되어 있어 기존 최강 모델들도 30%대에 머물던 곳입니다. Deep Think가 이를 훌쩍 넘었다는 것은, 이 모드가 단순한 ‘고성능 챗봇’이 아니라 진정한 전문가 영역에 발을 들여놓기 시작했다는 신호로 읽힙니다.

▲ 목차로 돌아가기

🔒 AI Ultra 전용인 이유 — 왜 Pro로는 안 될까

Deep Think를 사용하기 위해서는 반드시 Google AI Ultra 구독이 필요합니다. AI Pro(월 약 29,000원 상당) 구독자는 접근 자체가 불가능하고, AI Ultra 구독자(월 약 125,000원 상당, 한국 기준 Google One Ultra 연동)에게만 제미나이 앱에서 이 기능이 활성화됩니다. 왜 이렇게 접근을 제한할까요?

이유는 단순하고 직관적입니다. Deep Think는 하나의 응답을 생성하기 위해 내부적으로 수십~수백 개의 ‘생각 단계’를 순차적으로 처리하므로, 일반 Gemini 응답 대비 컴퓨팅 비용이 수십 배에 달합니다. 구글이 공개한 API 요금 기준으로도 출력 토큰이 입력 토큰보다 6배 비싸고, Deep Think 모드에서는 이 ‘생각 토큰’이 대량으로 생성됩니다. 따라서 무제한 오픈은 사업적으로 불가능하고, 가장 높은 요금제 사용자에게만 할당량(Usage Limit)을 부여하는 형태로 운영되고 있습니다.

실제로 구글 공식 문서에는 “Deep Think는 사용 가능 횟수에 한도가 있으며, 한도 도달 시 초기화될 때까지 기다려야 한다”고 명시되어 있습니다. 현재 공식적으로 공개된 정확한 일별 한도 수치는 없지만, 초기 테스터들의 보고에 따르면 하루 수십 회 수준에서 제한이 걸리는 것으로 알려져 있습니다. 비용 대비 효율을 생각한다면, Deep Think는 복잡한 수학 증명, 논문 검토, 복잡한 소프트웨어 아키텍처 설계처럼 정말 어려운 문제에만 아껴서 쓰는 것이 현명합니다.

플랜	Deep Think	Gemini 3 Pro	API 얼리 액세스
무료	❌	일 5회	❌
Google AI Pro	❌	무제한(속도 제한)	❌
Google AI Ultra	✅ (한도 있음)	우선 접속	✅ 신청 가능

▲ 목차로 돌아가기

🖥️ 실전 사용법 — 켜는 법부터 응답 대기까지

웹 앱에서 Deep Think 활성화하는 법

AI Ultra 구독 상태라면 gemini.google.com에 로그인한 뒤, 채팅 입력창 왼쪽 또는 상단의 모델 선택기(Model Selector)를 클릭합니다. 드롭다운 목록에서 “Deep Think” 항목이 보이면 선택하면 됩니다. 만약 보이지 않는다면 구글 계정이 AI Ultra로 업그레이드되어 있는지 먼저 확인하세요. 만 18세 미만이면 접근이 불가능하다는 점도 참고하시기 바랍니다.

응답 대기 중 다른 채팅 사용 가능

Deep Think는 응답 생성까지 수 분이 소요될 수 있습니다. 이는 버그나 오류가 아니라, 내부 추론 과정이 그만큼 깊게 진행되기 때문입니다. 구글은 이를 고려해 대기 중 다른 채팅을 시작할 수 있는 기능을 제공합니다. 웹 앱에서는 응답이 완성되면 채팅 목록 옆에 알림이 표시되고, 모바일 앱에서는 기기 푸시 알림으로 완료를 알려줍니다. 즉, Deep Think에 질문을 넣어두고 다른 작업을 하다가 나중에 확인하는 비동기적 활용이 가능합니다.

Deep Think를 가장 잘 쓰는 3가지 프롬프트 전략

첫째, 단계적으로 풀어야 하는 수학·논리 증명 문제에 가장 효과적입니다. “이 명제를 귀납법으로 증명하라”처럼 최종 답보다 과정이 중요한 질문일수록 Deep Think의 진가가 드러납니다. 둘째, 논문이나 코드를 그대로 붙여 넣고 오류를 찾아 달라고 요청할 때 탁월합니다. 일반 Gemini는 표면적인 오류만 잡는 반면, Deep Think는 논리적 구조 자체의 결함을 짚어냅니다. 셋째, 여러 가지 가능성을 동시에 탐색해야 하는 설계 문제, 예를 들어 “이 시스템 아키텍처에서 병목이 생길 수 있는 시나리오를 모두 열거하고 각각의 해결 방안을 제시하라”처럼 복잡한 개방형 질문에서도 일반 모드와 차원이 다른 결과물이 나옵니다.

⚠️ 주의: Deep Think는 Google이 사전 고지 없이 언제든 중단하거나 변경할 수 있는 실험 기능(Experimental Feature)입니다. 중요한 업무에 전적으로 의존하기 전에 반드시 결과물을 검증하는 과정을 거치세요.

▲ 목차로 돌아가기

⚖️ Deep Think vs 일반 Gemini 3 Pro — 어떤 상황에 써야 하나

모든 질문에 Deep Think를 쓸 이유는 없습니다. 오히려 간단한 질문에 Deep Think를 쓰면 한도만 낭비하게 됩니다. 아래 기준으로 선택하는 것이 효율적입니다.

✅ Deep Think 써야 할 때

수학 증명, 알고리즘 설계
논문·코드 논리 오류 검토
물리·화학 복잡 계산
시스템 아키텍처 취약점 분석
다중 조건 최적화 문제

⚡ 일반 Gemini 3 Pro로 충분한 때

이메일 초안 작성
간단한 정보 검색·요약
일상 번역, 글쓰기 보조
이미지·영상 분석(빠른 요약)
쇼핑 정보 비교

제 개인적인 판단으로는, Deep Think의 진짜 경쟁자는 ChatGPT나 Claude가 아니라 ‘사람 전문가’입니다. 일반적인 AI 모델들이 ‘인턴 수준’의 작업을 자동화했다면, Deep Think는 이제 ‘주니어~시니어 전문가’가 해야 하는 검토·분석 작업을 상당 부분 대체할 수 있는 수준에 올라왔습니다. 특히 명확한 정답이 없는 오픈 리서치 환경에서의 퍼포먼스는, 사용해본 과학자들의 증언이 일관되게 긍정적이라는 점에서 신뢰할 만합니다.

▲ 목차로 돌아가기

👨‍💻 API 활용 — 개발자를 위한 얼리 액세스 신청법

2026년 2월 12일 업데이트에서 구글은 처음으로 Gemini API를 통해 Deep Think를 일부 연구자·엔지니어·기업에 제공하기 시작했습니다. 구글 딥마인드가 직접 운영하는 얼리 액세스 프로그램(Early Access Program)에 신청하면 API를 통해 Deep Think 모드를 실험할 수 있습니다. 신청 링크는 구글 딥마인드 공식 블로그의 관련 포스트에서 확인할 수 있으며, Google Docs Form 형태로 제공됩니다.

API 과금 구조는 Gemini 3.1 Pro와 동일한 틀을 따르되, Deep Think 모드에서는 ‘생각 토큰(Thinking Token)’이 추가로 생성되기 때문에 실질 출력 비용이 더 높게 청구됩니다. 입력 토큰 200K 이하 기준 입력 $2.00/1M, 출력 $12.00/1M이며 컨텍스트 캐싱(Context Caching) 기능을 활용하면 반복되는 긴 문서를 캐시에 보관해 입력 비용을 최대 90%까지 절감할 수 있습니다. 비용을 아끼려면 입력 프롬프트를 200K 토큰 이하로 유지하고, 출력 형식을 구조화된 JSON으로 강제하는 것이 핵심입니다.

현재 대규모 기업 도입 사례로는 물리적 부품 설계 가속화(아누팜 파탁, 리프트웨어 전 CEO), 초전도체 연구 공정 최적화(듀크 대학교 왕 연구실), 수학 논문 동료 평가(럿거스 대학교 리사 카본 교수) 등이 공식 확인된 상태입니다. 또한 3D 프린팅 설계 파일 자동 생성이라는 공학 응용 사례도 이번 발표에서 처음 공개되었습니다. 손으로 그린 스케치를 업로드하면 Deep Think가 이를 분석해 실제로 3D 프린팅 가능한 CAD 파일로 변환한다는 내용으로, 제조업 종사자들이 주목할 만한 기능입니다.

🔗 공식 외부 링크

▲ 목차로 돌아가기

❓ Q&A — 가장 많이 묻는 질문 5가지

Q
Deep Think는 한국어 질문도 잘 이해하나요?

네, Deep Think는 Gemini 3 기반이므로 한국어 입력과 한국어 출력 모두 지원합니다. 다만 수학·코딩처럼 구조적 언어가 섞인 복합 질문의 경우 영어로 프롬프트를 작성하고 “한국어로 답변해 달라”고 별도 지시하면 더 정밀한 추론 결과를 얻을 수 있습니다. 순수 한국어 글쓰기나 논리 검토는 한국어로 입력해도 충분합니다.

Q
응답이 5분 넘게 안 나오면 오류인가요?

꼭 그렇지는 않습니다. Deep Think는 문제의 복잡도에 따라 응답 생성 시간이 크게 달라집니다. 단순 수학 문제는 1~2분, 복잡한 논문 검토나 다단계 코딩 문제는 5~10분 이상 걸리는 경우도 있습니다. 구글은 이를 인지하고 ‘응답 대기 중 다른 채팅 시작’ 기능을 제공합니다. 15분 이상 응답이 없다면 네트워크 문제나 서버 오류일 수 있으므로 새로고침 후 재시도하는 것이 좋습니다.

Q
AI Pro(월 29,000원)에서 Deep Think를 쓸 수 있는 방법은 없나요?

현재(2026년 3월 기준)로는 AI Ultra 전용이라 AI Pro로는 접근이 불가능합니다. 다만 Gemini API 얼리 액세스 프로그램에 연구자·개발자 자격으로 신청하면 AI Ultra 구독 없이도 API를 통해 테스트할 수 있습니다. 구글이 향후 AI Pro에도 제한적으로 허용할 가능성은 있지만, 공식 발표는 아직 없습니다.

Q
Deep Think와 Deep Research는 같은 기능인가요?

다릅니다. Deep Research는 웹을 수십 회 검색하고 종합해 긴 리포트를 자동으로 작성해주는 기능으로, Gemini AI Pro 이상에서 사용 가능합니다. Deep Think는 웹 검색 없이 주어진 정보와 모델 내부 지식만으로 깊이 있는 논리 추론을 수행하는 전문 추론 모드입니다. 두 기능을 함께 사용하면, 먼저 Deep Research로 최신 정보를 수집한 뒤 그 결과물을 Deep Think에 입력해 논리적 오류를 검토하는 워크플로우가 가능합니다.

Q
Deep Think가 틀린 답을 낼 수도 있나요?

물론입니다. 벤치마크 점수가 높다는 것은 ‘평균적으로 더 잘 맞힌다’는 의미일 뿐, 오류 가능성이 0이라는 뜻이 아닙니다. 특히 최신 정보가 필요한 영역이나 훈련 데이터가 부족한 극도로 세부적인 전문 분야에서는 여전히 환각(Hallucination)이 발생할 수 있습니다. 구글도 공식적으로 Deep Think를 ‘실험 기능’으로 분류하며, 결과물의 독립적인 검증을 권고하고 있습니다.

▲ 목차로 돌아가기

✍️ 마치며 — 지금 당장 써야 하는가

솔직하게 말씀드리겠습니다. Gemini 3 Deep Think는 현재 시점에서 AI 추론 분야의 가장 강력한 공개 도구 중 하나임은 분명합니다. ARC-AGI-2 84.6%, LiveCodeBench 95.4%라는 수치는 홍보용 허수가 아니라, AI 연구자 커뮤니티에서도 주목하는 의미 있는 결과입니다.

다만 AI Ultra 구독(월 약 125,000원)이라는 진입 비용은 가볍지 않습니다. 만약 여러분이 논문을 검토하는 연구자, 복잡한 알고리즘을 설계하는 개발자, 혹은 수학이나 물리처럼 깊은 추론이 필요한 작업을 반복적으로 하는 분이라면 지금 당장 써볼 가치가 있습니다. 반면 일반적인 문서 작업, 간단한 코딩 보조, 번역 정도가 주된 용도라면 AI Pro나 무료 플랜으로도 충분합니다.

한 가지 더 짚고 싶은 것은, 구글이 이번 업데이트에서 ‘현실 세계의 지저분한 문제’를 명시적인 목표로 내걸었다는 점입니다. 그동안 AI는 깔끔하게 정제된 질문에만 잘 대답했습니다. Deep Think가 그 경계를 밀어붙이기 시작했고, 실제 연구 현장의 과학자들이 검증하고 있습니다. 그 실험이 성공한다면, 2026년은 AI가 진짜 전문가의 조수가 되는 원년으로 기억될 것입니다.

※ 본 포스팅의 벤치마크 수치 및 기능 정보는 구글 딥마인드 공식 블로그(2026년 2월 12일 발표) 및 구글 공식 문서를 기반으로 작성되었습니다. Google AI Ultra 요금, Deep Think 사용 한도, API 정책 등은 구글의 정책 변경에 따라 사전 고지 없이 변동될 수 있습니다. 정확한 최신 정보는 반드시 구글 공식 사이트에서 확인하시기 바랍니다.

AI Ultra 없이 못 쓰는 이유

💡 Deep Think란 무엇인가 — 생각하는 AI의 구조

📊 벤치마크 실체 분석 — 84.6%가 의미하는 것

🔒 AI Ultra 전용인 이유 — 왜 Pro로는 안 될까