2026.02.12 업그레이드 기준
Ultra 전용 기능
Google AI Ultra 한도 최신 반영

제미나이 3 딥씽크, $250 내는데 하루 10번이 전부인 이유

ARC-AGI-2에서 인간 기준선(84%)을 처음 넘은 AI. 그런데 막상 쓰려고 보면 Ultra 구독자도 하루 딱 10개 프롬프트가 전부입니다. 성능 수치와 실제 사용 조건이 이렇게 다른 데는 구조적인 이유가 있었습니다.

84.6%

ARC-AGI-2 (인간 84%)

48.4%

HLE 도구 없이

10개/일

Ultra 구독 한도

$250

월 구독 (Ultra)

딥씽크가 다른 AI 추론 모드와 근본적으로 다른 점

제미나이 3 딥씽크(Gemini 3 Deep Think)는 2026년 2월 12일 대규모 업그레이드 버전이 공개됐습니다. (출처: Google DeepMind Blog, 2026.02.12) 이름에 “딥씽크”가 붙은 추론 모드가 이전에도 있었지만, 이번 버전은 구조 자체가 달라졌습니다. GPT-5.4의 Thinking 모드나 Claude의 Extended Thinking이 단일 추론 체인을 길게 늘리는 방식이라면, 딥씽크는 여러 가설을 동시에 탐색하는 병렬 다중 에이전트 구조를 씁니다.

심리학 용어로 빗대면 일반 LLM이 ‘시스템 1(빠른 직관)’이라면, 딥씽크는 ‘시스템 2(느린 분석)’에 해당합니다. 문제를 받으면 여러 에이전트가 각자 다른 풀이 경로를 탐색하고, 서로 교차 검증한 뒤 최선의 답을 통합합니다. 그래서 응답 시간이 수 초가 아니라 1~2분씩 걸리는 게 정상입니다. 이 점을 모르고 처음 쓰면 “고장난 거 아닌가”라는 생각이 들 수 있습니다.

💡 공식 발표문과 실제 응답 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
딥씽크의 응답이 긴 이유는 AI가 “느려서”가 아니라 병렬로 여러 경로를 뜯어보고 합치는 과정이 포함되어 있기 때문입니다. 컨텍스트 윈도우도 일반 Gemini 3 Pro의 1M 입력과 달리, 딥씽크는 입력 1M·출력 192K 토큰으로 출력 상한이 별도로 제한됩니다. (출처: Google AI 지원 센터)

구분	일반 LLM	Gemini 3 Pro	딥씽크
추론 방식	단일 선형	다단계	병렬 멀티 에이전트
응답 시간	수 초	수 초~수십 초	1~수 분
출력 토큰 한도	128K~200K	1M 입력	1M 입력 / 192K 출력
ARC-AGI-2	20% 미만	31.1%	84.6%

(출처: Google DeepMind 공식 평가 보고서, 2026.02.12 / Google AI 지원 센터)

▲ 목차로 돌아가기

벤치마크 수치가 말하는 것과 말하지 않는 것

딥씽크의 가장 충격적인 수치는 ARC-AGI-2 84.6%입니다. ARC Prize 재단이 검증한 이 점수가 처음 공개됐을 때, 많은 사람들이 “드디어 인간을 넘었다”고 반응했는데, 그 반응이 틀리지 않았습니다. 인간 기준선이 84%이니 딥씽크가 처음으로 인간 수준을 넘은 AI가 된 셈입니다. (출처: ARC Prize Foundation 검증, 2026.02.12) 이건 진짜 숫자입니다.

💡 ARC-AGI-2 점수를 다른 모델과 나란히 놓고 보니 격차가 명확하게 보였습니다.
딥씽크 바로 아래인 Gemini 3 Pro가 45.1%, GPT-5.1이 17.6%입니다. 딥씽크가 Pro 대비 약 1.9배, GPT-5.1 대비 약 4.8배입니다. 벤치마크 점수가 이렇게 멀리 떨어진 경우는 보통 모델 세대가 달라질 때 보이는 패턴이었는데, 같은 Gemini 3 계열 안에서 이 차이가 납니다.

그런데 벤치마크가 말하지 않는 것도 있습니다. 딥씽크는 할루시네이션(환각) 비율이 팩트 쿼리 기준 약 12% 수준으로 남아 있습니다. ARC-AGI-2에서 인간 기준을 넘었지만, “이 논문 저자가 누구냐”처럼 단순해 보이는 사실 확인 질문에서 존재하지 않는 논문을 인용하거나 잘못된 DOI를 내놓는 경우가 보고되고 있습니다. (출처: atalupadhyay.wordpress.com 실사용 분석, 2026.02.16) 수학 올림피아드 금메달과 팩트 체크 오류가 같은 모델에서 동시에 나오는 게 현재 딥씽크의 상태입니다.

HLE 48.4% — 이 수치가 실제로 의미하는 바

HLE(Humanity’s Last Exam)는 전 세계 박사급 연구자들이 제출한 문제들로 구성된 벤치마크입니다. 딥씽크가 도구 없이 48.4%를 달성했는데, 직전 최고 기록인 Gemini 3 Pro 37.5%보다 약 11%포인트 높습니다. (출처: Google DeepMind 공식 평가 보고서) 박사 수준 문제에서 10% 이상의 격차는 실질적입니다. 단, 나머지 51.6%는 여전히 틀립니다. “모든 걸 안다”는 AI가 아니라, “가장 어려운 영역에서 인간을 처음 추월하기 시작한 AI”로 읽는 게 맞습니다.

▲ 목차로 돌아가기

하루 10개 한도가 생긴 구조적 이유

Google AI Ultra 구독자라면 딥씽크를 하루 최대 10개 프롬프트까지만 쓸 수 있습니다. 이건 공식 지원 페이지(support.google.com/gemini/answer/16275805)에 테이블로 명시된 숫자입니다. 같은 Ultra 구독에서 사고 모델(Thinking) 프롬프트는 하루 1,500개인데, 딥씽크는 10개입니다. 150배 차이입니다.

⚠️ 공식 수치 비교
Ultra 기준 하루 사용 가능 프롬프트 수:
— 빠른 모델: 사실상 무제한
— 사고(Thinking) 모델: 1,500개
— Pro 3.1: 500개
— 딥씽크 3.1: 10개 (컨텍스트 윈도우 192,000 토큰 제공)
(출처: Google AI 지원 센터, 2026.03.31 기준)

왜 이렇게 적을까요. 딥씽크 하나의 요청은 일반 프롬프트와 컴퓨팅 비용이 다릅니다. 병렬 에이전트가 동시에 여러 경로를 탐색하면서 출력도 192K 토큰까지 쏟아내는 구조라, 요청 한 건당 소비하는 GPU 자원이 일반 Pro 쿼리의 수십 배 수준입니다. Google이 이유를 공식 발표문에서 직접 밝히지는 않았지만, 서버 용량 제약이 주된 배경이라는 것은 Reddit의 r/GeminiAI에서 Ultra 구독자들의 실사용 패턴으로 뒷받침됩니다. 실제로 2026년 2월 11일 전후로 Pro 모델 한도가 급격히 줄었다는 보고가 대거 올라왔고, 이는 딥씽크 업그레이드 출시 직전과 시기가 겹칩니다.

▲ 목차로 돌아가기

Ultra $250가 실제로 남는 조건

월 $250(약 36만 원)을 내고 딥씽크를 쓰는 게 경제적으로 의미 있는 조건이 따로 있습니다. 분기 기준으로 계산하면 확실해집니다.

💡 비용 분기점을 직접 계산해 보면 이렇게 됩니다.
월 $250 ÷ 30일 = 일 약 $8.3 비용. 딥씽크가 하루 10번 쿼리 제한이므로, 쿼리 1회당 $0.83이 나옵니다. 그러므로 딥씽크 하나의 질문이 전문가 시간 기준으로 그 이상의 가치를 아끼는 작업이어야 비로소 남는 장사입니다. 수학 논문 검증, 복잡한 코드베이스 오류 추적, 설계도→3D 파일 변환처럼 전문가 1시간 비용($75~)이 나오는 작업에 딥씽크를 쓰면 분기점을 넘습니다. (계산 근거: 공식 구독 요금 $250/월, 하루 10회 한도 — Google AI 지원 센터)

이런 경우라면 Ultra가 아니라도 됩니다

반면 딥씽크가 맞지 않는 상황도 있습니다. 하루에 빠른 질문·답변을 반복적으로 해야 하는 업무라면 딥씽크의 1~2분 응답 대기 시간이 오히려 방해가 됩니다. 간단한 번역, 요약, 아이디어 브레인스토밍에는 사고 모델이나 빠른 모델로 충분하고, Ultra가 아닌 Pro($20/월)로도 됩니다. $230 차이가 딥씽크 10회/일 전용으로 쓰인다는 점을 감안해야 합니다. Ultra는 딥씽크 외에도 Veo 3.1 영상 생성(하루 5개), 30TB 스토리지, NotebookLM 프리미엄 등을 포함하지만, 딥씽크만을 위한 선택이라면 작업 성격을 먼저 따지는 게 현실적입니다.

▲ 목차로 돌아가기

공식 문서에 없는 롤링 한도 함정

공식 페이지에 나온 “하루 10개”가 전부가 아닙니다. 실사용자들이 보고하는 실제 패턴은 조금 다릅니다. 2026년 2월 이후 r/GeminiAI에서 다수 보고된 내용을 보면, 딥씽크와 Pro 모델 모두 단순 일일 한도 외에 토큰 기준의 롤링 윈도우(3시간~수 시간 단위)가 추가로 작동하는 정황이 있습니다. 즉 하루 10번이 다 남아 있어도 단시간에 여러 건을 연속으로 쓰면 “한도 초과” 메시지를 받을 수 있습니다.

실제 Ultra 구독자 보고 (r/GeminiAI, 2026.02.11)
“I use both GPT Pro and Gemini Ultra. The serious downside of Gemini is that Deep Think is limited to just 10 questions a day. Even so, the multimodal features keep me from quitting.”
→ Ultra 구독자도 딥씽크는 10개가 현실이라고 직접 언급. 한도 이상의 롤링 제약 때문에 실제 사용 가능 횟수가 더 줄어드는 경우도 보고됨.

Google이 이 롤링 한도의 구체적인 기준을 공개하지 않았습니다. 공식 지원 페이지에는 “한도는 자주 변경될 수 있으며 사전 고지 없이 변경될 수 있다”고만 나와 있습니다. 실사용 관점에서 이 점이 아쉬운 부분입니다. 오늘 딥씽크를 집중적으로 써야 하는 상황이라면, 10번을 한 번에 몰아서 쓰기보다는 간격을 두고 쓰는 것이 실제로 한도에 걸리는 빈도를 줄이는 방법으로 보입니다.

Pro 구독자에게 딥씽크는 아예 없습니다

Google AI Pro($20/월)를 쓰고 있다면 딥씽크 접근 자체가 막혀 있습니다. 공식 한도 표에서 딥씽크 항목은 Ultra 구독 열에만 값이 있고 Pro 열은 “-“입니다. (출처: Google AI 지원 센터) 딥씽크는 Ultra 전용 기능입니다. AI Studio를 통해 API로 얼리 액세스 신청은 가능하지만, 이것도 별도 심사를 거쳐야 합니다.

▲ 목차로 돌아가기

딥씽크를 실제로 쓸 때 달라지는 것들

딥씽크가 빛을 발하는 영역이 명확합니다. Google DeepMind가 공개한 초기 테스터 사례를 보면, 럿거스 대학교의 수학자 리사 카본(Lisa Carbone)이 동료 심사에서도 걸러지지 않은 논문의 논리적 오류를 딥씽크로 찾아낸 사례가 있습니다. (출처: Google DeepMind Blog, 2026.02.12) 사람이 놓친 걸 AI가 잡아낸 것인데, 이게 가능한 건 딥씽크가 여러 경로를 병렬로 검증하는 구조 덕분입니다.

코딩 분야에서는 LiveCodeBench 95.4%라는 수치가 나왔습니다. (출처: Google DeepMind 공식 평가 보고서, 2026.02.12) Codeforces Elo 3,455는 국제 마스터 수준입니다. 실제로 50,000줄 이상의 코드베이스를 한 번에 올려서 아키텍처 단위 오류를 추적하거나, 스케치 이미지를 3D 프린팅 파일로 변환하는 작업에서 효율이 두드러집니다. 이 두 가지는 하루 10번 안에서 고가치 작업에 집중한다는 딥씽크 사용 전략과 잘 맞습니다.

💡 실사용자 패턴과 공식 활용 사례를 교차해서 보니 이런 흐름이 보였습니다.
딥씽크를 가장 효율적으로 쓰는 방법은 “한 번 물을 때 최대한 많은 정보를 담아 묻는 것”입니다. 일반적인 짧은 질문은 사고 모델이나 빠른 모델로 처리하고, 정말 복잡한 문제 하나를 잘 구성해서 딥씽크에 올리는 흐름이 하루 10회 한도를 가장 잘 활용하는 패턴입니다.

국제 수학·물리·화학 올림피아드 금메달 — 과장 아닙니다

2026년 2월 업그레이드로 물리·화학까지 영역이 넓어졌습니다. 2025 국제 물리 올림피아드와 화학 올림피아드 서면 부문에서 금메달 수준을 달성했습니다. (출처: Google DeepMind Blog, 2026.02.12) 이전 버전이 수학·코딩 중심이었다면, 지금의 딥씽크는 과학 전반으로 추론 능력이 확장된 상태입니다. 다만 실험 데이터 분석이나 실험실 설계 같은 물리적 세계와 맞닿는 작업은 아직 텍스트 출력 한계가 있습니다.

▲ 목차로 돌아가기

Q&A

Q. 딥씽크는 Gemini Pro와 어떻게 다른가요?

Gemini 3 Pro는 단일 다단계 추론 모드로 작동하는 반면, 딥씽크는 여러 에이전트가 병렬로 서로 다른 풀이 경로를 탐색한 뒤 교차 검증합니다. 그래서 응답 시간이 수 분으로 늘어나고, ARC-AGI-2 기준 점수는 Pro의 31.1%에서 딥씽크 84.6%로 크게 높아집니다. (출처: Google DeepMind, 2026.02.12)

Q. Ultra 구독 없이 딥씽크를 쓸 방법이 있나요?

Google AI Studio를 통한 API 얼리 액세스 신청이 있습니다. 연구자, 엔지니어, 기업을 대상으로 하며, 신청 양식을 통해 사용 목적을 제출해야 합니다. 일반 무료·Pro 구독자는 딥씽크에 접근할 수 없습니다. (출처: Google DeepMind Blog, 2026.02.12)

Q. 딥씽크 하루 10번 한도는 언제 초기화되나요?

Google 공식 지원 페이지에 따르면 한도는 매일 초기화됩니다. 정확한 초기화 시각은 공개되지 않았습니다. 단, 롤링 윈도우 방식의 추가 제한이 별도로 작동할 수 있어, 한도가 초기화됐더라도 단시간 내 집중 사용 시 제한이 걸릴 수 있습니다. (출처: Google AI 지원 센터)

Q. ARC-AGI-2 84.6%가 정말 인간 기준선을 넘은 건가요?

네. ARC Prize 재단이 공식 검증한 수치로, 인간 기준선인 84%를 0.6%포인트 넘은 84.6%입니다. 단, ARC-AGI-2는 특정 유형의 추상 추론 능력을 측정하는 벤치마크이며, 이 점수가 “모든 영역에서 인간을 능가한다”는 의미는 아닙니다. 팩트 기반 질문에서 할루시네이션은 여전히 약 12% 수준입니다. (출처: ARC Prize Foundation 검증, 2026.02.12)

Q. 딥씽크가 가장 효과적인 사용 케이스는 무엇인가요?

수학·물리·화학 논문 검증, 복잡한 코드베이스 디버깅, 대용량 문서(최대 1백만 토큰) 교차 분석, 스케치→3D 파일 변환, 연구 수준의 알고리즘 설계 등입니다. 빠른 번역이나 단순 요약에는 적합하지 않습니다. 응답 1건에 1~수 분이 걸리기 때문에 실시간성이 중요한 작업에도 맞지 않습니다.

▲ 목차로 돌아가기

마치며 — 총평

제미나이 3 딥씽크는 “AI 추론의 다음 단계”라는 말이 처음으로 통계적으로 뒷받침된 모델입니다. ARC-AGI-2 84.6%로 인간 기준선을 처음 넘었고, HLE 48.4%는 박사급 문제에서 역대 최고 수치입니다. 수학 올림피아드 금메달에 이어 물리·화학까지 확장된 2월 업그레이드는 그냥 숫자 게임이 아니라 실제 연구 현장에서 동료 심사를 통과한 오류를 잡아낸 사례로 증명됐습니다.

다만 이 모든 성능이 Ultra 구독자에게조차 하루 10번이라는 타이트한 한도 안에서만 쓸 수 있습니다. 롤링 제한까지 감안하면 실질적으로 더 적을 수 있습니다. $250/월을 쓰면서 딥씽크 10번이 전부라는 점이 이상하게 느껴질 수 있는데, 요청 한 건당 컴퓨팅 비용이 일반 모델과 차원이 다르다는 게 구조적인 이유입니다. 솔직히 말하면, 일상적인 작업에 $250를 내는 사람에게는 아직 비효율적인 선택입니다. 그러나 복잡한 기술 문제를 전문가 시간 대신 AI로 해결해야 하는 연구자·엔지니어라면, 하루 10번이라는 한도가 생각보다 빠듯하지 않을 수 있습니다.

Google이 API 얼리 액세스 확장 계획을 밝혔고, Gemini 3.1 업데이트가 3월 이후 공개되고 있는 상황이라 한도 조건은 앞으로 달라질 여지가 있습니다. 지금 당장 필요한 분이라면 Ultra를 먼저 한 달 써보되, 딥씽크만을 위한 구독인지 Ultra 전체 번들이 필요한지를 미리 정리하고 시작하는 게 낫습니다.

본 포스팅 참고 자료

Google DeepMind 공식 블로그 — 제미나이 3 딥씽크 업그레이드 발표 (2026.02.12)
https://blog.google/intl/ko-kr/company-news/technology/gemini-3-deep-think/
Google AI 지원 센터 — Google AI 구독자 Gemini 앱 한도 및 업그레이드
https://support.google.com/gemini/answer/16275805?hl=ko-KR
Google AI — Gemini 앱 Deep Think 사용하기
https://support.google.com/gemini/answer/16345172?hl=ko
Google DeepMind 모델 평가 PDF (ARC-AGI-2, HLE 공식 수치 원본)
https://storage.googleapis.com/deepmind-media/gemini/gemini_3_deep_think_model_evaluation.pdf
9to5Google — Google separates, raises Gemini 3 ‘Thinking’ and ‘Pro’ usage limits (2026.01.14)
https://9to5google.com/2026/01/14/gemini-3-usage-limits-update/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 딥씽크 한도 및 요금제 정보는 Google이 사전 고지 없이 변경할 수 있으며, 최신 정보는 Google AI 공식 지원 센터에서 직접 확인하시기 바랍니다. 본 포스팅에 포함된 가격·수치는 2026년 3월 31일 기준입니다.

제미나이 3 딥씽크, $250 내는데 하루 10번이 전부인 이유

딥씽크가 다른 AI 추론 모드와 근본적으로 다른 점