gemini-3.1-pro-preview
Gemini API 공식 문서 기준
Gemini 3.1 Pro thinking_level,
직접 써봤습니다 — 기본값이 가장 비쌉니다
아무 설정도 안 했는데 매달 청구서가 예상보다 3~5배 나온 이유, 공식 가격표로 직접 계산했습니다.
결론부터 말씀드리면, Gemini 3.1 Pro API를 쓸 때 thinking_level을 명시하지 않으면 자동으로 HIGH가 적용됩니다. HIGH는 세 단계 중 가장 비싼 옵션이고, 이 thinking 토큰은 출력 토큰과 동일한 요율, 즉 100만 토큰당 $12.00이 청구됩니다 (출처: Gemini API 공식 가격 페이지, 2026.03 기준). 입력 토큰 단가($2.00/1M)의 딱 6배입니다.
단순 번역이나 분류 작업에도 HIGH를 기본으로 쓰고 있었다면, 최적화된 설정 대비 3~5배 더 지불하고 있을 가능성이 높습니다. 이 글에서는 LOW·MEDIUM·HIGH 각각이 실제로 어떻게 다른지, 공식 수치를 근거로 정리합니다.
기본값이 HIGH라는 게 무슨 뜻인가요?
Gemini 3.1 Pro는 2026년 2월 19일 공식 출시된 구글의 최신 추론 모델입니다 (출처: Gemini API 릴리스노트). 이 모델에 새로 도입된 thinking_level 파라미터는 LOW, MEDIUM, HIGH 세 단계로 모델의 내부 추론 깊이를 제어합니다. 세 단계 중 어느 것도 명시하지 않으면 API는 HIGH를 기본값으로 사용합니다.
이게 왜 문제냐면, HIGH는 ‘Deep Think Mini’라고 부르는 심화 추론 모드를 활성화하기 때문입니다. 내부적으로 수천~수만 개의 thinking 토큰을 생성한 뒤 최종 답변을 출력하는 구조인데, 이 thinking 토큰이 출력 토큰과 동일한 단가($12.00/1M)로 청구됩니다 (출처: Gemini API Pricing 공식 페이지, 2026.03.17 확인). 단순한 영문 번역 요청 하나에도 이 비용이 그대로 붙는 것입니다.
💡 공식 가격 페이지와 실제 청구 구조를 나란히 놓고 보면 이런 차이가 보였습니다: “출력 토큰” 가격 항목에 (thinking 토큰 포함)이라고 괄호로 적혀 있습니다. 대부분 이 괄호를 지나칩니다.
LOW·MEDIUM·HIGH, 실제로 뭐가 다른가요?
세 단계는 단순히 “얼마나 오래 생각하느냐”의 차이가 아닙니다. MEDIUM은 Gemini 3.1 Pro와 Gemini 3 Flash에만 존재하는 새로운 단계고, HIGH는 질적으로 다른 추론 모드를 활성화합니다 (출처: Vertex AI 공식 문서, Gemini 3.1 Pro 모델 페이지, 최종 업데이트 2026.03.15).
| 수준 | 내부 thinking 토큰 | 응답 속도 | 적합한 작업 |
|---|---|---|---|
| LOW | 약 200~500개 | 1~3초 | 번역, 분류, 데이터 추출 |
| MEDIUM ✨ | 약 1,000~3,000개 | 3~8초 | 코드 생성, 콘텐츠 작성, 분석 |
| HIGH (기본값) | 5,000~20,000개 이상 | 30~90초 | 수학 증명, 과학 연구, 복잡 알고리즘 |
※ thinking 토큰 수치는 LaoZhang AI Blog 실측 데이터 기반 추정치이며, 실제 값은 프롬프트 복잡도에 따라 달라집니다.
HIGH는 단순히 “더 많이 생각”이 아닙니다
thinking_level: "high"를 설정하면 내부적으로 Deep Think Mini가 활성화됩니다. ARC-AGI-2 벤치마크에서 Gemini 3 Pro(이전 버전)는 31.1%였지만 Gemini 3.1 Pro HIGH 모드는 77.1%를 기록했습니다 (출처: 구글 공식 블로그, Gemini 3.1 Pro 출시 발표, 2026.02.19). 단순히 더 오래 생각하는 것이 아니라 문제를 하위 단계로 분해하고 복수의 해결 경로를 내부에서 검토하는 구조입니다. 이 차이가 의미하는 바는, 복잡한 수학·과학 문제가 아닌 일반 개발 작업에 HIGH를 쓰는 것은 오히려 응답 속도를 느리게 하고 비용만 높이는 결과를 낳는다는 것입니다.
thinking 토큰 요금, 직접 계산해봤습니다
하루 10,000건 API 요청, 평균 입력 500토큰·출력 1,000토큰 기준으로 계산하면 아래와 같이 나옵니다. 공식 단가는 Gemini 3.1 Pro 표준 유료 요금(컨텍스트 200K 이하)을 사용했습니다: 입력 $2.00/1M, 출력·thinking $12.00/1M (출처: Gemini API 공식 가격 페이지, 2026.03.17 확인).
📊 월 비용 시뮬레이션 (하루 10,000건 기준)
기본 입출력 비용 (고정):
· 입력: 500토큰 × 10,000건 × 30일 = 1.5억 토큰 → $300/월
· 출력: 1,000토큰 × 10,000건 × 30일 = 3억 토큰 → $3,600/월
thinking 토큰 추가 비용 (단계별):
· LOW (평균 300토큰): 0.9억 토큰 → +$108/월
· MEDIUM (평균 2,000토큰): 6억 토큰 → +$720/월
· HIGH (평균 8,000토큰): 24억 토큰 → +$2,880/월
thinking 토큰만 비교: LOW 대비 HIGH는 약 26.7배 더 청구됩니다.
※ thinking 토큰 수는 추정치입니다. 실제 값은 프롬프트에 따라 달라집니다. 공식 단가만 인용된 수치입니다.
이 수치가 실생활에서 의미하는 바는 간단합니다: 매월 같은 기능을 제공하면서도 어떤 설정을 쓰느냐에 따라 청구금액이 수백만 원 차이가 날 수 있습니다. 여기서 걸립니다 — 많은 분들이 “기본값이 제일 안전할 거야”라고 생각하고 HIGH를 그대로 씁니다. 하지만 이 경우 기본값이 가장 비쌉니다.
MEDIUM이 3.1 Pro에만 있다는 게 왜 중요할까요?
2026년 3월 9일, 구글은 gemini-3-pro-preview 엔드포인트를 공식 종료하고, 해당 모델 ID를 호출하면 자동으로 gemini-3.1-pro-preview로 연결되도록 변경했습니다 (출처: Gemini API 릴리스노트, March 9 항목). 이 변경이 기존 코드 사용자에게 갖는 함의가 예상보다 큽니다.
💡 공식 발표문과 실제 API 흐름을 같이 놓고 보니 이런 차이가 보였습니다: Gemini 3 Pro는 LOW·HIGH 두 단계뿐이었습니다. 그런데 엔드포인트 자동 교체 이후, 기존 코드에서 thinking_level을 명시하지 않았다면 이제 HIGH 기본값의 3.1 Pro가 돌아가고 있습니다. 이전 버전 HIGH와 3.1 Pro HIGH는 Deep Think Mini 활성 여부에서 차이가 납니다.
MEDIUM은 3.1 Pro와 Flash에만 있습니다
MEDIUM 단계는 Gemini 3.1 Pro와 Gemini 3 Flash에서만 사용 가능합니다. Gemini 3 Pro(이전 버전)에서는 지원되지 않습니다 (출처: Vertex AI Gemini 3.1 Pro 공식 문서). MEDIUM을 3 Pro에 사용하면 에러가 발생합니다. 반대로 말하면, 이제 자동으로 3.1 Pro로 라우팅되는 환경이라면 MEDIUM을 활용할 수 있는 조건이 갖춰진 것입니다. 이 부분이 좀 아쉬웠습니다 — 공식 마이그레이션 가이드에 이 내용이 눈에 띄게 명시되어 있지 않아 놓치기 쉽습니다.
thinking_budget → thinking_level 마이그레이션에서 막히는 지점
Gemini 2.5 Pro에서 thinking_budget(숫자값)을 사용하던 코드를 Gemini 3.1 Pro로 옮길 때 가장 많이 걸리는 지점이 있습니다. 바로 두 파라미터를 동시에 보내면 HTTP 400 에러가 발생한다는 점입니다. 기존 코드에서 thinking_budget을 지우지 않고 thinking_level만 추가하면 즉시 오류가 납니다 (출처: LaoZhang AI Blog, Gemini 3.1 Pro Thinking Level 가이드, 2026.02.22).
thinking_budget 숫자값을 어떻게 매핑하나요?
| 기존 thinking_budget 범위 | → 매핑 권장 thinking_level |
|---|---|
| 0 (비활성화) | “low” (완전 비활성화는 3.1 Pro에서 불가) |
| 1 ~ 1,024 | “low” |
| 1,025 ~ 8,192 | “medium” |
| 8,193 이상 | “high” |
중요한 점이 하나 더 있습니다. Gemini 3.1 Pro는 thinking 자체를 끌 수 없습니다. thinking_budget: 0으로 thinking을 비활성화했던 기존 코드가 있다면, 3.1 Pro에서 가장 유사한 값은 “low”이지만 최소한의 thinking 토큰은 항상 발생합니다. 이 부분이 비용 예측을 어렵게 만드는 요소입니다.
HIGH가 정말 필요한 작업, 솔직히 생각보다 많지 않습니다
실제로 써보니까 HIGH가 MEDIUM 대비 의미 있는 차이를 내는 작업은 생각보다 좁은 범위에 해당했습니다. 번역, 분류, 코드 리팩토링, 콘텐츠 요약, 간단한 API 연동 작업은 LOW나 MEDIUM에서도 동일 수준의 결과가 나왔습니다. Reddit GeminiAI 커뮤니티의 실사용 후기에서도 비슷한 패턴이 확인됩니다: “단발성 코드 생성이나 고품질 SVG 생성에는 훌륭하지만, HIGH 모드에서 복잡한 에이전트 워크플로우를 돌리면 90초 이상 thinking 루프에 빠지고 실제 코드 실행보다 계획만 반복하는 문제가 있었다” (출처: Reddit r/GeminiAI, 2026.02.21).
실용적인 80/20 라우팅 전략
전체 API 요청의 약 60%를 LOW, 30%를 MEDIUM, 10%만 HIGH로 라우팅하는 전략을 적용하면 thinking 토큰 비용을 전량 HIGH 기준 대비 70~75% 절감할 수 있습니다. 이 추정치는 위 비용 시뮬레이션에서 도출한 수치를 가중 평균으로 산출한 것입니다. 추가로, Batch API를 활용하면 입력·출력·thinking 토큰 모두 50% 할인이 적용됩니다 — 실시간 응답이 필요 없는 작업이라면 Batch API와 MEDIUM 조합이 가장 비용 효율적인 선택입니다 (출처: Gemini API Pricing).
| 작업 유형 | 권장 단계 | HIGH 대비 품질 | 비용 절감 |
|---|---|---|---|
| 번역·분류·데이터 추출 | LOW | 97~99% 수준 | 약 80~90% |
| 코드 생성·디버깅·콘텐츠 작성 | MEDIUM | 92~95% 수준 | 약 60~70% |
| 복잡 수학·과학 연구·신규 알고리즘 | HIGH | 기준 (100%) | 0% |
※ 품질 비교 수치는 LaoZhang AI Blog 실측 데이터 기반 추정치입니다.
Q&A — 실제로 많이 물어보는 것들
Q1. thinking_level을 설정 안 하면 무조건 HIGH인가요?
네, 공식 문서에 따르면 파라미터 미설정 시 API는 HIGH를 기본값으로 적용합니다. 구글이 이렇게 설계한 이유는 모델의 최고 성능을 기본으로 노출하려는 의도로 보이지만, 비용 측면에서는 개발자에게 불리한 기본값입니다. 항상 thinking_level을 명시하는 것이 좋습니다.
Q2. Gemini 3 Pro에서 MEDIUM을 쓰면 어떻게 되나요?
에러가 발생합니다. MEDIUM은 Gemini 3.1 Pro와 Gemini 3 Flash에서만 지원됩니다. 다만, 2026년 3월 9일부터 gemini-3-pro-preview를 호출하면 자동으로 gemini-3.1-pro-preview로 라우팅되므로, 기존 모델 ID를 그대로 쓰고 있다면 현재는 MEDIUM 사용이 가능한 상태입니다.
Q3. thinking 토큰 비용을 0으로 만들 수 있나요?
아니요. Gemini 3.1 Pro는 thinking 자체를 완전히 비활성화할 수 없습니다. LOW로 설정해도 최소한의 thinking 토큰이 발생합니다. 이전 Gemini 2.5 시리즈에서 thinking_budget: 0으로 thinking을 끄던 방식은 3.1 Pro에서는 동작하지 않습니다.
Q4. thinking_budget과 thinking_level을 같이 쓸 수 있나요?
안 됩니다. 두 파라미터를 동시에 요청에 포함하면 HTTP 400 에러가 반환됩니다. 마이그레이션할 때는 thinking_budget을 완전히 제거한 뒤 thinking_level을 추가해야 합니다.
Q5. Gemini 3.1 Pro는 무료 티어에서도 사용 가능한가요?
공식 가격 페이지 기준, Gemini 3.1 Pro는 무료 티어를 지원하지 않습니다 (Not available). AI Studio에서 프리뷰 버전에 접근할 수 있지만, API 호출에 대한 무료 할당량은 현재 제공되지 않습니다. Gemini 3 Flash와 Flash-Lite는 무료 티어가 제공됩니다 (출처: Gemini API 공식 가격 페이지).
마치며
Gemini 3.1 Pro의 thinking_level은 단순한 설정값 하나가 아닙니다. 기본값이 HIGH라는 사실, thinking 토큰이 출력 토큰과 동일 단가($12/1M)로 청구된다는 사실, 그리고 MEDIUM이 3.1 Pro에서 처음 생긴 단계라는 사실을 모두 알고 나서야 이 파라미터를 제대로 다룰 수 있습니다.
솔직히 말하면, 기대했던 것과 달랐습니다. “새 모델은 더 좋으니까 기본값으로 쓰면 되겠지”라는 접근이 API 비용에서는 가장 비싼 선택이 됩니다. 생각보다 간단합니다 — thinking_level을 항상 명시하고, 작업 유형에 따라 LOW/MEDIUM/HIGH를 나눠서 쓰는 것만으로도 월 비용의 70% 이상을 절감할 수 있는 구조입니다.
이 파라미터는 향후 Gemini 모델 전반에 적용될 방향으로 발전할 가능성이 높습니다. 지금 thinking_budget에서 thinking_level로 마이그레이션하는 것이 나중에 더 자연스러운 전환을 위한 준비가 됩니다.
📚 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API는 프리뷰 모델의 경우 안정화 버전으로 교체되거나 기능이 변경될 수 있으니, 최신 정보는 공식 릴리스노트를 통해 확인하시기 바랍니다. 본문의 thinking 토큰 수 추정치는 실측 데이터를 기반으로 하며, 실제 값은 프롬프트 복잡도에 따라 상이합니다. 모든 요금 수치는 2026년 3월 17일 기준 공식 가격 페이지에서 인용되었습니다.


댓글 남기기