Gemini 3.1 Pro thinking_level, 기본값이 제일 비쌉니다

Published on

in

Gemini 3.1 Pro thinking_level, 기본값이 제일 비쌉니다
2026.03.20 기준
gemini-3.1-pro-preview 기준
Gemini API

Gemini 3.1 Pro thinking_level,
기본값이 제일 비쌉니다

파라미터 하나 빠뜨렸을 뿐인데 요금이 3~10배로 불어납니다.
공식 문서와 실제 수치로 직접 확인했습니다.

3단계
thinking_level 구분
최대 75%
비용 절감 가능
2026.03.09
Gemini 3 Pro 종료일

Gemini 3 Pro가 3월 9일 종료됐습니다

2026년 3월 9일, Google AI Studio와 Gemini API에서 제공하던 Gemini 3 Pro Preview가 공식 종료됐습니다. 이미 그 일주일 전인 3월 6일부터 gemini-pro-latest 별칭이 자동으로 Gemini 3.1 Pro를 가리키도록 전환됐고, 3월 9일 이후에는 gemini-3-pro-preview 모델 ID 자체가 API에서 응답하지 않습니다. (출처: Google AI for Developers 공식 문서, 2026.02.28)

기존 코드에서 모델 ID를 gemini-3-pro-preview로 고정해 쓰고 있었다면, 지금 바로 gemini-3.1-pro-preview로 바꿔야 합니다. 단순히 버전 번호 변경이 아니라, 추론 파라미터 체계 자체가 달라졌기 때문에 마이그레이션 시 추가 수정이 필요합니다. 이 글이 바로 그 포인트를 짚어드리려고 씁니다.

Gemini 3.1 Pro의 핵심 변화는 추론 제어 방식의 전면 교체입니다. 숫자로 토큰 예산을 지정하는 thinking_budget 대신, 이제 thinking_level 파라미터로 LOW·MEDIUM·HIGH 세 단계 중 하나를 선택합니다. 이 차이가 왜 중요한지는 다음 섹션에서 바로 설명합니다.

▲ 목차로 돌아가기

기본값이 HIGH인 것, 알고 계셨나요?

💡 공식 API 문서와 실제 청구 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — thinking_level을 지정하지 않으면 API가 자동으로 HIGH를 선택해 가장 비싼 모드로 모든 요청이 처리됩니다.

Gemini 3.1 Pro API에 thinking_level을 지정하지 않으면 기본값은 HIGH입니다. (출처: LaoZhang AI Blog, 공식 Gemini API 문서 교차 확인, 2026.02.22) 이게 왜 문제냐면, HIGH는 Deep Think Mini가 활성화되는 모드로 요청당 thinking 토큰이 최대 5,000~20,000개 이상 발생합니다.

thinking 토큰은 눈에 보이는 응답에 포함되지 않지만, 출력 토큰과 동일한 요금($12.00/1M 토큰, 200K 이하 컨텍스트 기준)이 청구됩니다. 단순 번역이나 텍스트 분류처럼 복잡한 추론이 필요 없는 작업에도 HIGH가 기본으로 동작하니, 설정 한 줄 빠뜨린 것만으로도 청구서가 예상보다 수배 커지는 겁니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03 기준)

구글이 기본값을 HIGH로 설정한 이유는 아마 모델의 최고 성능을 먼저 경험하게 하려는 의도겠지만, 실무 환경에서 이 기본값을 그대로 유지하는 건 권장하지 않습니다. 아래에서 각 레벨이 실제로 어떻게 다른지 살펴보겠습니다.

▲ 목차로 돌아가기

LOW·MEDIUM·HIGH 실제로 어떻게 다른가요

세 레벨은 단순히 “더 많이 생각하냐 덜 생각하냐”의 차이가 아닙니다. HIGH는 질적으로 다른 추론 엔진인 Deep Think Mini가 활성화됩니다. 특히 MEDIUM은 Gemini 3.1 Pro에서 처음 추가된 레벨로, 이전 Gemini 3 Pro에는 존재하지 않았습니다. 기존에 Gemini 3 Pro의 LOW/HIGH만 써봤다면 이 중간 레벨을 처음 만나는 셈입니다.

레벨 thinking 토큰 수(약) 응답 속도 특이사항
LOW 200~500개 1~3초 패턴 인식 중심, 추론 최소화
MEDIUM 1,000~3,000개 3~8초 3.1 Pro 신규 도입, 범용 기본값 권장
HIGH 5,000~20,000개+ 30~90초 Deep Think Mini 활성화, API 기본값

출처: LaoZhang AI Blog (2026.02.22), Google DeepMind 공식 발표 (2026.02.19)

HIGH 레벨의 Deep Think Mini는 단순히 thinking 토큰을 더 쓰는 게 아니라, 복잡한 문제를 여러 하위 문제로 쪼개고 여러 해결 경로를 내부적으로 평가한 뒤 답을 냅니다. 그 결과 Gemini 3.1 Pro는 ARC-AGI-2 벤치마크에서 77.1%를 기록했는데, 이는 이전 Gemini 3 Pro의 31.1% 대비 두 배 이상 향상된 수치입니다. (출처: Google DeepMind 공식 블로그, 2026.02.19) 77.1%라는 숫자의 의미는 이렇습니다 — 새로운 논리 패턴 해결 능력을 테스트하는 벤치마크에서 Gemini 3 Pro와 동일 모델이지만 추론 단계를 어떻게 제어하느냐만으로 성능 차이가 두 배 이상 벌어진다는 것입니다.

반대로 생각하면, 번역·분류·단순 요약처럼 패턴 인식만으로 충분한 작업은 HIGH를 써도 LOW와 품질 차이가 2% 미만입니다. 비용 차이는 80~90%인데 말이죠. (출처: LaoZhang AI Blog 실측 데이터, 2026.02.22)

▲ 목차로 돌아가기

thinking 토큰 요금, 직접 계산해봤습니다

💡 thinking 토큰이 출력 토큰과 같은 요금으로 청구된다는 사실을 모르는 경우가 많습니다 — 실제로 하루 1만 건 처리 기준으로 HIGH와 LOW의 월 청구 차이를 계산해봤더니 그 차이가 상당했습니다.

Gemini API 공식 요금 기준(2026.03, 200K 이하 컨텍스트)은 아래와 같습니다.

  • 입력 토큰: $2.00 / 1M 토큰
  • 출력 토큰: $12.00 / 1M 토큰
  • thinking 토큰: 출력 토큰과 동일 — $12.00 / 1M 토큰

출처: ai.google.dev/gemini-api/docs/pricing (2026.03 기준)

실제 시나리오로 계산해봅니다. 하루 10,000건, 평균 입력 500 토큰, 출력 1,000 토큰인 프로덕션 앱이 있다고 가정합니다.

레벨 평균 thinking 토큰 건당 thinking 비용 월 thinking 비용
LOW 300개 $0.0036 약 $1,080
MEDIUM 2,000개 $0.024 약 $7,200
HIGH (기본값) 8,000개 $0.096 약 $28,800

계산 기준: thinking 토큰 × $12.00/1M × 10,000건/일 × 30일. 입출력 토큰 비용은 레벨과 무관하게 동일하게 발생합니다. 수치 출처: LaoZhang AI Blog (2026.02.22)

HIGH 기본값을 그대로 쓰면 thinking 토큰 비용만 월 약 $28,800이지만, 같은 작업 대부분을 LOW·MEDIUM으로 분산하면 $7,200 안팎으로 줄일 수 있습니다. 수치가 직접적으로 말해주는 건 이겁니다 — 파라미터 한 줄이 월 $20,000 이상의 차이를 만든다는 것입니다.

▲ 목차로 돌아가기

thinking_budget에서 thinking_level로 바꾸는 법

💡 기존 Gemini 2.5 Pro나 3 Pro 코드에서 thinking_budget을 쓰고 있었다면 주의할 게 있습니다 — 두 파라미터를 동시에 넣으면 HTTP 400 에러가 납니다. 하나를 완전히 제거하고 나서 다른 쪽을 써야 합니다.

Gemini 2.5 Pro에서 쓰던 thinking_budget은 숫자 값(0~24,576)으로 thinking 토큰 최대치를 직접 지정하는 방식이었습니다. Gemini 3.1 Pro에서는 이 방식 대신 thinking_level이라는 시맨틱 레벨 체계로 전환됩니다. 마이그레이션 시 아래 대응 표를 참고하면 됩니다.

기존 thinking_budget 범위 → 대응하는 thinking_level
0 (thinking 비활성화 시도) 직접 대응 없음 — “low”가 가장 가까움 (완전 비활성화 불가)
1 ~ 1,024 “low”
1,024 ~ 8,192 “medium”
8,192 ~ 24,576 “high”

출처: EvoLink AI 공식 마이그레이션 가이드 (2026.02.28), LaoZhang AI Blog (2026.02.22)

그리고 Gemini 3.1 Pro에서는 thinking을 완전히 끌 수 없습니다. thinking_budget: 0으로 thinking을 끄던 코드가 있었다면, LOW로 전환해도 최소한의 내부 추론은 여전히 발생합니다. 이 점은 확인 필요 사항으로 분류해둘 만합니다.

코드 예시 형식은 간단합니다. Python의 경우 config={"thinking_config": {"thinking_level": "medium"}} 형태로 지정합니다. 기존 thinking_budget이 있던 자리를 완전히 제거하고 thinking_level로 교체하면 됩니다. 두 파라미터를 같은 요청에 모두 넣으면 HTTP 400 에러가 발생하므로 코드 전체를 점검해야 합니다.

▲ 목차로 돌아가기

어떤 작업에 어떤 레벨을 쓰면 될까요

작업 유형별로 추천 레벨이 다릅니다. 기준은 하나입니다 — 해당 작업이 다단계 논리 추론이 필요한지 아닌지입니다. 실제 비용 절감을 극대화하려면 요청 라우팅 로직에서 이 세 단계를 작업 유형별로 나눠 자동 배정하는 게 가장 효과적입니다.

LOW를 써도 충분한 작업

번역, 텍스트 분류, 엔티티 추출, 데이터 포맷 변환, 간단한 요약, FAQ 응답 등 패턴 인식 중심 작업이 여기 해당됩니다. HIGH 대비 품질 차이가 2% 미만이면서 비용은 85~90% 절감됩니다. (출처: LaoZhang AI Blog 실측, 2026.02.22) 이런 작업이 전체 요청의 절반 이상이라면, LOW 배정만으로도 청구서가 눈에 띄게 달라집니다.

MEDIUM이 최적인 작업

코드 생성, 버그 디버깅, 콘텐츠 작성, 중간 수준의 데이터 분석, API 연동 작업이 여기 속합니다. 구조화된 계획과 엣지케이스 고려가 필요하지만, Deep Think Mini가 없어도 됩니다. HIGH 대비 비용 60~70% 절감하면서 품질 차이는 5~8% 수준입니다. 대부분의 프로덕션 앱에서 80% 이상의 요청을 여기에 배정해도 됩니다.

HIGH가 필요한 경우

복잡한 수학 증명, 과학적 분석, 신규 알고리즘 설계, 경쟁 프로그래밍 문제, 멀티스텝 논리 퍼즐, 여러 소스를 교차 분석하는 리서치 작업이 여기 해당됩니다. Gemini 3.1 Pro가 HIGH에서 SWE-Bench Verified 80.6%, GPQA Diamond 94.3%를 기록한다는 것은 실제 소프트웨어 엔지니어링 작업과 대학원 수준 과학 문제에서 Deep Think Mini의 효과가 증명됐다는 의미입니다. (출처: NxCode, VentureBeat 교차 확인, 2026.02) 이 유형은 전체 요청의 10% 이내로 제한하는 게 비용 관리상 적합합니다.

80/20 라우팅 전략 요약

전체 요청의 60%를 LOW, 30%를 MEDIUM, 10%를 HIGH에 배정하면 — HIGH 단일 사용 대비 월 thinking 토큰 비용을 70~75% 절감할 수 있습니다. (출처: LaoZhang AI Blog 계산 기준, 2026.02.22) 이 비율은 고정값이 아니라 본인 앱의 실제 작업 분포를 usage_metadata로 모니터링해 조정하면 됩니다.

▲ 목차로 돌아가기

Q&A

Q. thinking_level을 지정하지 않으면 정말 HIGH가 기본인가요?

맞습니다. 공식 문서와 개발자 실측 데이터 모두 thinking_level을 생략하면 HIGH로 동작한다고 확인합니다. Google이 의도적으로 설정한 기본값이지만, 실무에서는 반드시 명시적으로 지정하는 게 좋습니다. 특히 간단한 작업이 많은 앱이라면 이 기본값 하나가 월 청구서를 크게 바꿉니다.
Q. thinking_budget과 thinking_level을 같이 쓰면 어떻게 되나요?

HTTP 400 에러가 발생합니다. 두 파라미터를 동시에 사용하는 건 불가능하고, 하나를 완전히 제거해야 합니다. 마이그레이션 중 부분 수정을 해서 두 파라미터가 같은 요청에 섞이는 경우가 가장 많이 발생하니 코드베이스 전체를 점검하는 게 안전합니다.
Q. thinking을 완전히 끄는 방법이 없나요?

Q. MEDIUM 레벨을 Gemini 3 Pro에서도 쓸 수 있나요?

아닙니다. MEDIUM은 Gemini 3.1 Pro와 Gemini 3 Flash에서만 사용 가능합니다. Gemini 3 Pro는 LOW와 HIGH만 지원했고, 이미 3월 9일부로 API가 종료됐습니다. 3 Pro를 쓰던 코드를 3.1 Pro로 마이그레이션하면 그때 처음으로 MEDIUM을 사용할 수 있게 됩니다.
Q. Batch API를 쓰면 thinking 토큰 비용도 절감되나요?

네, Batch API는 입력·출력·thinking 토큰 전체에 50% 할인을 적용합니다. (출처: ai.google.dev/gemini-api/docs/pricing) 실시간 응답이 필요 없는 배치 처리 작업이라면 Batch API와 thinking_level 최적화를 같이 적용하면 최대 80% 이상 비용 절감이 가능합니다. 컨텍스트 캐싱($0.20/1M 토큰)도 같이 사용하면 반복 입력 비용도 줄어듭니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Pro의 thinking_level은 파라미터 한 줄이지만, 그 영향은 생각보다 큽니다. 기본값이 HIGH라는 사실 하나가 모르고 쓰는 개발자에게는 월 수천 달러의 불필요한 비용으로 이어질 수 있습니다.

솔직히 말하면, 구글이 기본값을 HIGH로 설정한 건 이해가 됩니다. 처음 쓰는 사람이 모델의 가장 강력한 면을 먼저 경험하게 하려는 의도겠죠. 하지만 프로덕션에서 그 기본값을 그대로 유지하는 건 다른 이야기입니다. 작업 유형에 맞는 레벨 배정과 Batch API 활용만으로도 같은 품질 결과물을 훨씬 낮은 비용에 얻을 수 있습니다.

Gemini 3 Pro에서 넘어오는 분이라면 모델 ID 변경만 하지 말고, thinking_budget → thinking_level 전환과 기본값 명시를 같이 처리하세요. 그 두 줄이 다음 달 청구서를 바꿉니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. 구글 공식 블로그 — 제미나이 3.1 프로 출시 발표 (2026.02.19): blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/
  2. Google AI for Developers — Gemini API 공식 요금 안내: ai.google.dev/gemini-api/docs/pricing
  3. Google Cloud Vertex AI — Gemini 3.1 Pro 공식 문서: docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-pro
  4. EvoLink AI — Gemini 3 Pro → 3.1 Pro 마이그레이션 가이드 (2026.02.28): evolink.ai/ko/blog/gemini-3-pro-deprecation-migrate-to-3-1-pro
  5. LaoZhang AI Blog — Gemini 3.1 Pro thinking_level 실측 가이드 (2026.02.22): blog.laozhang.ai/en/posts/gemini-3-1-pro-thinking-level

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API 요금 및 파라미터 사양은 Google이 공지 없이 변경할 수 있으므로, 프로덕션 적용 전 ai.google.dev/gemini-api/docs/pricing 공식 페이지에서 최신 정보를 반드시 확인하시기 바랍니다. 본 글의 수치는 2026년 3월 20일 기준으로 작성됐습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기