Gemini 2.5 Deep Think 정식 출시 기준
IT/AI
Gemini 2.5 Pro Deep Think, 수학은 완벽한데 글쓰기는 왜 뒤처질까요?
결론부터 말씀드리면, Gemini 2.5 Pro Deep Think는 IMO 2025 수학 올림피아드에서 동메달 수준 점수를 받은 유일한 AI 모델입니다. 그런데 창의적 글쓰기에서는 이전 버전인 gemini-2.5-pro-03-25보다 오히려 뒤처진다는 실사용 후기가 공식 포럼에 쏟아지고 있습니다. 이 두 가지 사실을 같이 놓고 보면, 이 모델을 어떤 용도로 써야 하는지 훨씬 선명하게 보입니다.
Deep Think가 뭔지 먼저 짚고 갑니다
Gemini 2.5 Pro Deep Think는 Google DeepMind가 2025년 8월 1일 공식 출시한 강화 추론 모드입니다. 공식 모델 카드에 정확히 이렇게 나옵니다. “병렬 사고(parallel thinking)와 강화학습을 결합해 응답 전에 여러 가설을 동시에 검토한다.”(출처: Gemini 2.5 Deep Think Model Card, Google DeepMind, 2025.08.01) 일반 Gemini 2.5 Pro가 순차적으로 생각한다면, Deep Think는 여러 경로를 동시에 굴린 뒤 가장 유력한 답을 추출하는 방식입니다.
아키텍처는 Sparse MoE(희소 혼합 전문가) 구조로, 입력 토큰마다 전체 파라미터 중 일부 전문가만 활성화합니다. 덕분에 모델 전체 규모를 키우면서도 토큰당 연산 비용을 통제할 수 있습니다. 컨텍스트 윈도우는 최대 1,048,576 토큰(약 1M)이고, 최대 출력은 192,000 토큰입니다. (출처: Vertex AI Gemini 2.5 Pro 문서, 2025.06.17 정식 출시)
지식 컷오프는 2025년 1월입니다. 그러니까 2025년 2월 이후 사건이나 데이터를 물어보면 모델이 공식 근거 없이 답하게 됩니다. 실시간성이 필요한 작업에선 Google Search 그라운딩을 따로 켜야 합니다.
수학에서 경쟁 모델을 압도한 실제 수치
공식 모델 카드(2025.08.01)에 공개된 벤치마크 수치를 직접 옮기면 이렇습니다.
| 벤치마크 | Deep Think | Gemini 2.5 Pro | OpenAI o3 | Grok 4 |
|---|---|---|---|---|
| IMO 2025 (동메달 기준) | 60.7% | 31.6% | 16.7% | 21.4% |
| AIME 2025 | 99.2% | 88.0% | 88.9% | 91.7% |
| Humanity’s Last Exam | 34.8% | 21.6% | 20.3% | 25.4% |
| LiveCodeBench v6 | 87.6% | 74.2% | 72.0% | 79.0% |
IMO 2025 점수 60.7%는 국제 수학 올림피아드 동메달 수준입니다. 경쟁 모델 o3(16.7%), Grok 4(21.4%)와의 격차가 3~4배입니다. 이 차이가 체감상 얼마나 큰지 실감하려면 이렇게 보면 됩니다. IMO 문제 하나를 제대로 푸는 건 수학 박사 후보 기준으로도 2~3시간 걸리는 난이도입니다.
💡 공식 발표 벤치마크와 실제 사용 방식을 겹쳐서 보니 이런 게 보입니다. Deep Think의 점수가 높은 벤치마크는 정해진 정답이 있는 문제(수학·코딩·논리)에 집중돼 있습니다. 반면 정답이 열려 있는 영역(글쓰기·창의성·뉘앙스)은 공식 벤치마크 목록에 아예 없습니다. 구글이 강점을 아는 영역에서만 수치를 냈다는 뜻입니다.
AIME 2025 정답률 99.2%는 best@32 방식으로 측정됐습니다. 32번 시도 중 한 번이라도 맞으면 정답으로 카운트한 수치라는 뜻입니다. 1회 시도(pass@1)로 다시 재면 수치가 다소 낮아지므로, 실제 API 호출에서 동일한 결과를 기대하면 다를 수 있습니다. (출처: Gemini 2.5 Deep Think Model Card, Google DeepMind, 2025.08.01)
글쓰기·지시 이행에서 이전 버전에 밀리는 이유
직접 써봤더니 달랐다는 후기가 공식 포럼에 반복됩니다. Google AI Studio 공식 토론 게시판(discuss.ai.google.dev)에는 2025년 6월 기준 “Gemini 2.5 Pro가 꾸준히 나빠지고 있다”는 스레드가 올라왔고, 사용자들은 이전 버전 03-25가 글쓰기에선 낫다고 증언하고 있습니다.
공식 모델 카드도 이 부분을 명시했습니다. “Deep Think는 Gemini 2.5 Pro에 비해 콘텐츠 안전성과 어조 면에서 더 낫지만, 무해한 요청에 대해서도 과잉 거부(over-refuses)하는 경향이 있으며, 이는 지시 이행 손실로 분류된다.” 지시 이행 점수는 Gemini 2.5 Pro 대비 -9.9%p입니다. (출처: Gemini 2.5 Deep Think Model Card, 2025.08.01)
💡 “추론이 강해지면 모든 게 나아질 것”이라는 기대를 뒤집는 데이터입니다. 병렬 사고 방식은 정답이 명확한 영역에선 강력하지만, 정답 기준이 없는 창의적 요청에선 오히려 과잉 검토로 이어져 지시 이행률이 낮아집니다. 추론 능력과 지시 이행률은 별개의 축입니다.
어조(Tone) 점수는 +16.3%p로 크게 올랐습니다. 민감한 주제에서 모델이 더 정중하게 거절하는 방향으로 훈련됐다는 뜻입니다. 이 부분이 좋은 것처럼 보이지만, 창의 글쓰기나 세밀한 지시 수행에선 오히려 모델이 과도하게 조심스러워져 결과물이 무난해지는 방향으로 흐릅니다.
긴 대화에서 컨텍스트가 흔들리는 문제도 실사용에서 자주 보입니다. 30,000자 이상의 이전 맥락이 쌓이면 이전 내용을 잊거나 편집 품질이 떨어진다는 보고가 있습니다. 공식적으로 이유를 별도 공개하지 않은 부분입니다.
월 $249.99가 아까운 조건, 아깝지 않은 조건
Google AI Ultra 플랜 가격은 월 $249.99(한화 약 34만 원)입니다. Deep Think에 접근하려면 이 플랜이 필요합니다. 그런데 Hacker News 사용자 후기에서 “프롬프트 5개 만에 일일 한도에 도달했다”는 증언이 나왔습니다. 월 $249.99를 내고 하루 Deep Think 사용량이 단 5회라면 실질 비용은 회당 상당히 높습니다.
⚡ 이 조건이라면 Deep Think가 맞습니다
수학·과학 난제를 정기적으로 다루는 연구자, 복잡한 알고리즘 디버깅이 주 업무인 개발자, 법률·의학·공학 분야 전문 문서 검토처럼 정답이 검증 가능한 작업에선 Deep Think의 성능 향상이 실질적으로 체감됩니다. 특히 단일 프롬프트로 대용량 문서를 처리할 때 1M 토큰 컨텍스트 윈도우와의 시너지가 높습니다.
⚠️ 이 조건이라면 재고하세요
콘텐츠 작성·마케팅 카피·소설·이메일 초안처럼 창의적 지시 수행이 주목적이라면, Gemini 2.5 Pro 표준 버전이 Deep Think보다 지시 이행률(-9.9%p)과 창의성에서 유리할 수 있습니다. API로만 접근한다면 Vertex AI 기준 Gemini 2.5 Pro는 입력 $1.25/1M 토큰, 출력 $10/1M 토큰(200k 이하 기준)입니다. (출처: finout.io Gemini Pricing in 2026, 2026년 3월 기준)
실제로 계산해보면, 200k 토큰 이하 입력 100만 건 기준 월 API 비용은 $1,250이고, 배치 모드 사용 시 50% 할인이 적용돼 $625까지 내려갑니다. AI Ultra 구독($249.99/월)과 비교해 사용량이 많다면 API가 더 저렴하고, 단발성 실험이라면 구독이 유리합니다.
공식 모델 카드가 공개한 보안 경고
이 부분은 대부분의 한국어 블로그가 다루지 않는 내용입니다. Google DeepMind는 Deep Think 출시 시 공식 모델 카드에서 두 가지 위험 임계값을 언급했습니다.
첫째, CBRN(화학·생물·방사선·핵) 업리프트 레벨 1의 조기 경보 임계값에 도달했습니다. 쉽게 말하면, 이 모델이 특정 CBRN 시나리오에서 저자원 행위자에게 기술적 지식을 제공할 수 있는 수준까지 성능이 올라갔다는 뜻입니다. 최종 CCL 판정을 위한 추가 평가가 진행 중이며, 구글은 예방적 조치로 추가 미티게이션을 적용한 채 출시했습니다. (출처: Gemini 2.5 Deep Think Model Card, Google DeepMind, 2025.08.01)
💡 “성능이 올라가면 안전성도 함께 높아진다”는 기대와 반대로 작동하는 지점입니다. 추론 능력이 강해질수록 위험 영역에서의 업리프트 가능성도 함께 커집니다. 구글이 자사 모델 카드에서 이를 명시한 건, 적어도 그 긴장을 숨기지 않는다는 신호입니다.
둘째, 사이버보안 업리프트 레벨 1의 조기 경보 임계값은 Gemini 2.5 Pro에서 이미 도달했고, Deep Think에서도 유지됩니다. 자율 사이버 공격 자동화 수준(Autonomy Level 1)은 도달하지 않았습니다. 쉬운 CTF 챌린지 73/76 해결, 중간 난이도 13/13 해결, 어려운 수준 3/13 해결 결과가 공개됐습니다.
이런 수치를 공개하는 모델 카드가 존재한다는 사실 자체가, Deep Think가 단순한 챗봇 업그레이드가 아니라 프론티어 모델 수준에 진입했다는 근거입니다.
API 요금으로 따져본 실제 비용 구조
Gemini 2.5 Pro API(Vertex AI 기준, 2026년 3월 기준)는 입력 토큰 200k 이하 시 $1.25/1M 토큰, 출력 $10.00/1M 토큰입니다. 200k 초과 구간에선 입력 $2.50, 출력 $15.00으로 올라갑니다. 여기서 중요한 포인트가 하나 있습니다. 출력 요금에는 추론 토큰(thinking tokens)이 포함됩니다. (출처: Gemini API Pricing, finout.io, 2026.03 기준)
Deep Think는 응답 전에 내부적으로 최대 32,000 토큰까지 사고 예산(thinking budget)을 씁니다. 이 토큰은 사용자에게 보이지 않지만 과금됩니다. 예를 들어, 입력 1,000 토큰짜리 수학 문제에 Deep Think가 30,000 토큰 사고 후 1,000 토큰 답변을 냈다면, 출력 기준 청구 토큰은 31,000 토큰입니다. 단순 계산으로 출력 비용이 사고 없을 때의 31배까지 올라갈 수 있습니다.
📊 직접 계산해볼 수 있는 시나리오
시나리오: 일평균 10회 요청, 입력 5k 토큰, Deep Think 사고 20k 토큰, 출력 2k 토큰
→ 일 출력 토큰: 22k × 10 = 220k 토큰
→ 월 출력 토큰: 220k × 30 = 6.6M 토큰
→ 월 출력 비용: 6.6 × $10 = 약 $66
→ 월 입력 비용: 5k × 10 × 30 × $1.25/1M = 약 $1.87
→ 합계: 월 약 $68 (배치 모드 50% 할인 적용 시 약 $34)
→ 이 조건이라면 AI Ultra $249.99보다 API가 훨씬 저렴합니다.
반대로 하루 100회 이상 대화형으로 사용하거나, 30TB 클라우드 스토리지·Veo 3.1 영상 생성 등 부가 서비스도 같이 쓴다면 AI Ultra 구독이 묶음 할인 효과를 냅니다. 사용 패턴에 따라 최적 플랜이 달라지므로, 먼저 API로 2~3주 테스트한 뒤 구독 전환 여부를 판단하는 게 손해가 없습니다.
자주 나오는 질문 5가지
마치며 — 이 모델을 어떻게 볼 것인가
Gemini 2.5 Pro Deep Think는 수학·코딩·논리 추론에서 현존 공개 모델 중 가장 높은 벤치마크를 가진 모델입니다. IMO 2025 동메달 수준 점수(60.7%, pass@1)는 공식 모델 카드에 기록된 수치입니다. 이 성능은 실제로 선형대수·알고리즘·증명이 필요한 작업에서 체감됩니다.
동시에, 지시 이행률 -9.9%p와 과잉 거부 경향은 창의적 작업 중심 사용자에게 실망을 줄 수 있습니다. 이 간극을 알고 쓰는 것과 모르고 쓰는 것은 결과가 크게 다릅니다. 목적이 수학·과학·코딩이면 써볼 가치가 충분하고, 글쓰기·마케팅·일반 대화가 주라면 표준 Gemini 2.5 Pro가 지금 단계에서 더 편합니다.
월 $249.99 구독 전에 Vertex AI API로 소량 테스트해보는 게 가장 현실적인 접근법입니다. 배치 모드 50% 할인을 활용하면 부담이 줄고, 실제 사용 패턴을 확인한 뒤 구독 여부를 결정해도 늦지 않습니다.
본 포스팅 참고 자료
- Gemini 2.5 Deep Think Model Card — Google DeepMind (2025.08.01) 공식 PDF
- Gemini 2.5 Flash 및 Pro 기능 확장 발표 — Google Cloud Blog (2025.05.21) 공식 블로그
- Gemini 2.5 Pro Vertex AI 공식 문서 — Google Cloud (2025.06.17 정식 출시) 공식 문서
- Gemini Pricing in 2026 — finout.io 가격 분석
- 구글의 가장 뛰어난 AI 모델, 제미나이 2.5 — Google Blog Korea (2025.03.26) 공식 블로그
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 모델 스펙·가격은 Google 공식 발표 기준이며, 이후 업데이트로 달라질 수 있습니다. 투자·구매 결정 전 공식 사이트에서 최신 정보를 직접 확인하세요.











댓글 남기기