Gemini 3.1 Flash-Lite, 빠른데 생각도 합니다

Published on

in

Gemini 3.1 Flash-Lite, 빠른데 생각도 합니다

2026.03.03 출시 기준
Gemini 3.1 Flash-Lite Preview
Google AI Studio / Vertex AI

Gemini 3.1 Flash-Lite, 빠른데 생각도 합니다

363 TPS에 Thinking Levels까지 — “가성비 모델은 추론 못 한다”는 건 이제 옛말입니다.

363 TPS
출력 속도
$0.25/1M
입력 토큰 단가
86.9%
GPQA Diamond
4단계
Thinking Levels

결론부터 말씀드리면, Gemini 3.1 Flash-Lite는 단순히 빠르고 싼 모델이 아닙니다. 2026년 3월 3일 구글이 공개한 이 모델에는 Thinking Levels라는 추론 깊이 조절 기능이 기본으로 탑재돼 있는데, 이 기능이 어떻게 작동하는지, 그리고 어떤 상황에서 비용을 오히려 늘리는지를 제대로 아는 한국어 콘텐츠가 거의 없습니다. 공식 발표문과 실제 API 동작 방식을 같이 놓고 보니 기대했던 것과 달랐습니다.

Thinking Levels가 뭔지 먼저 알아야 합니다

Thinking Levels는 모델이 답변을 생성하기 전에 ‘얼마나 깊이 생각할지’를 개발자가 파라미터로 직접 지정하는 기능입니다. 구글은 Gemini 3 시리즈부터 thinkingLevel 파라미터를 도입했고, Flash-Lite에는 minimal / low / medium / high 4단계가 모두 지원됩니다. (출처: Google AI Developers — Thinking 가이드, 2026.03)

여기서 중요한 게 있습니다. Flash-Lite의 기본값은 minimal입니다. 즉, 따로 설정하지 않으면 거의 사고하지 않는 상태로 동작합니다. 반면 Gemini 3 Flash의 기본값은 high입니다. 같은 Gemini 3 계열이지만 기본 동작이 정반대입니다. 이걸 모르고 두 모델을 비교하면 결과가 달라도 이유를 설명하기 어렵습니다.

💡 공식 문서와 실제 API 동작을 교차해서 보니 이런 차이가 보였습니다

Thinking Level 3.1 Pro 3.1 Flash-Lite 3 Flash 특성
minimal ❌ 미지원 ✅ 기본값 ✅ 지원 최저 레이턴시, 챗·대량 처리
low 간단한 명령 처리
medium 일반 작업 균형
high ✅ 기본값 ✅ Dynamic ✅ 기본값 최대 추론, 복잡한 코딩·수학

(출처: Google AI Developers Thinking 문서, 2026.03)

▲ 목차로 돌아가기

“Lite인데 추론이 더 깊다”는 게 사실인 이유

보통 Lite나 Mini 같은 이름이 붙으면 성능을 포기한 모델이라고 생각하기 쉽습니다. 그런데 Gemini 3.1 Flash-Lite의 벤치마크를 보면 생각이 달라집니다. GPQA Diamond(전문가 수준 과학 추론) 기준으로 Flash-Lite는 86.9%를 기록했는데, 이전 세대 주력 모델이었던 Gemini 2.5 Flash는 같은 항목에서 82.8%에 그쳤습니다. (출처: Google DeepMind — Gemini 3.1 Flash-Lite 공식 모델 페이지)

Lite 모델이 한 세대 앞선 상위 모델을 전문 추론 벤치마크에서 이겼습니다. AI 모델 세대 교체 속도를 보여주는 단적인 수치입니다. MMMU-Pro(멀티모달 이해) 항목에서도 Flash-Lite가 76.8%로 Gemini 2.5 Flash(66.7%)보다 10% 포인트 높습니다. (출처: 동일)

⚠️ 단, 공정한 비교에는 조건이 있습니다
이 수치는 Flash-Lite를 high Thinking Level로 설정한 결과입니다. 기본값인 minimal 그대로 쓰면 추론 성능은 크게 떨어집니다. 설정 없이 벤치마크 수치를 그대로 기대하면 막상 써봤을 때 다릅니다.

SimpleQA(사실 정확도) 항목에서도 Flash-Lite는 43.3%로 GPT-5 mini(9.5%), Claude 4.5 Haiku(5.5%)를 크게 앞서고 있습니다. 단순 사실 검색이나 번역처럼 정확도가 중요한 고빈도 작업에는 이 차이가 실제 서비스 품질로 이어집니다.

▲ 목차로 돌아가기

속도 363 TPS, GPT-5 mini와 비교하면 어떨까요

Google이 인용한 Artificial Analysis 벤치마크 기준으로 Gemini 3.1 Flash-Lite의 출력 속도는 초당 363 토큰(TPS)입니다. GPT-5 mini는 71 TPS, Claude 4.5 Haiku는 108 TPS입니다. (출처: Google Blog — Gemini 3.1 Flash-Lite 출시 공식 포스트, 2026.03.03) 363÷71을 계산하면 GPT-5 mini 대비 약 5.1배 빠릅니다. 초당 토큰이 5배 차이 나면 동일한 길이의 응답을 생성하는 데 걸리는 시간이 실사용에서 체감됩니다.

모델 출력 속도(TPS) 입력 단가($/1M) 출력 단가($/1M) GPQA Diamond
Gemini 3.1 Flash-Lite 363 $0.25 $1.50 86.9%
Gemini 2.5 Flash 249 $0.30 $2.50 82.8%
GPT-5 mini 71 $0.25 $2.00 82.3%
Claude 4.5 Haiku 108 $1.00 $5.00 73.0%
Grok 4.1 Fast 145 $0.20 $0.50 84.3%

(출처: Google DeepMind 공식 모델 페이지 — Gemini 3.1 Flash-Lite, 2026.03.03)

출력 단가만 놓고 보면 Grok 4.1 Fast($0.50/1M)가 Flash-Lite($1.50/1M)보다 저렴합니다. 하지만 GPQA Diamond 성능은 Flash-Lite(86.9%)가 Grok 4.1 Fast(84.3%)보다 높습니다. 비용과 성능의 균형은 작업 종류에 따라 달라질 수밖에 없습니다.

▲ 목차로 돌아가기

사고 토큰도 돈이 나갑니다 — 모르면 손해

Thinking Levels를 켜면 모델이 내부적으로 ‘사고 토큰(thinking tokens)’을 생성합니다. 이 토큰은 최종 응답에는 포함되지 않지만 과금 대상입니다. 구글 공식 가이드는 이 점을 명확하게 밝혔습니다. “가격은 출력 토큰과 사고 토큰의 합계를 기준으로 한다.” (출처: Google AI Developers — Thinking 가이드) 사고를 많이 할수록 비용이 올라갑니다.

💡 가격표에 없는 비용이 생기는 구조입니다
Flash-Lite를 “저렴하니까 Thinking 켜서 쓰면 되겠다”고 생각했다면 다시 계산이 필요합니다. high 레벨로 복잡한 쿼리를 대량 처리할 경우, 사고 토큰이 출력 토큰을 훨씬 초과하는 경우가 생깁니다. API 응답의 thoughtsTokenCount 필드로 직접 확인할 수 있습니다.

예를 들어 단순 콘텐츠 분류 같은 작업에 high 레벨을 적용하면 출력보다 사고에 더 많은 토큰이 쓰입니다. 반대로 복잡한 코드 생성이나 수학 풀이에 minimal을 유지하면 정확도가 떨어집니다. 작업 유형과 Thinking Level을 매칭하는 게 핵심입니다.

작업 유형 권장 Level 이유
대량 번역, 콘텐츠 분류 minimal 속도·비용 최우선, 추론 불필요
채팅, 간단한 Q&A low 빠른 응답, 기본 맥락 처리
UI 생성, 대시보드 구성 medium 구조 파악 필요, 균형 유지
복잡한 코딩, 수학 풀이 high 깊은 추론 필수, 비용 감수

(구글 공식 가이드 Best Practices 기반 재구성, ai.google.dev)

▲ 목차로 돌아가기

Flash-Lite가 실제로 쓰기 불편한 상황이 있습니다

공식 발표에서는 다루지 않은 실제 사용 한계가 몇 가지 있습니다. 첫째, 출력이 장황해지는 경향입니다. 커뮤니티 실사용 피드백에서 “예상보다 출력 토큰이 많이 나온다”는 보고가 반복됩니다. (출처: iweaver.ai 리뷰, 2026.03.04) 단어 수를 엄격히 제한하는 프로덕션 환경에서는 별도 후처리가 필요합니다.

둘째, 현재 상태는 Preview입니다. Vertex AI 공식 문서에 명시된 모델 ID는 gemini-3.1-flash-lite-preview입니다. Preview 단계에서는 API 트래픽이 몰릴 때 응답 지연이 발생했다는 사례가 실제 초기 사용자 피드백에서 확인됩니다. 대규모 상용 환경에 바로 투입하기 전에 부하 테스트가 필요합니다. (출처: Vertex AI 공식 문서 — Gemini 3.1 Flash-Lite)

⚠️ 멀티턴 대화에서 사고 맥락이 유지되지 않는 문제

셋째, 지식 컷오프가 2025년 1월입니다. (출처: Vertex AI 공식 문서) 최신 정보가 필요한 작업은 Search Grounding(구글 검색 연동)을 함께 설정해야 합니다. 이 기능은 Vertex AI에서 별도 비용이 발생할 수 있으므로, 비용 계획 시 함께 고려해야 합니다.

▲ 목차로 돌아가기

Thinking Levels 설정 실전 가이드

Python으로 Thinking Level 설정하기

thinkingLevel 파라미터 하나로 추론 깊이를 바꿀 수 있습니다. 공식 가이드 코드 기반으로 정리했습니다. (출처: Google AI Developers Thinking 가이드)

from google import genai
from google.genai import types
client = genai.Client()
# 대량 번역·분류: minimal (기본값, 속도 최우선)
response = client.models.generate_content(
model="gemini-3.1-flash-lite-preview",
contents="이 텍스트를 영어로 번역하세요: 안녕하세요",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(
thinking_level="minimal"  # low / medium / high 로 변경 가능
)
)
)
# 사고 토큰 확인 (과금 대상)
print(f"사고 토큰: {response.usage_metadata.thoughts_token_count}")
print(f"출력 토큰: {response.usage_metadata.candidates_token_count}")
print(response.text)

💡 Gemini 2.5와 3 시리즈의 추론 제어 방식이 다릅니다

Thought Signatures 멀티턴 관리

Gemini 3 시리즈는 멀티턴 대화에서 모든 파트에 Thought Signatures를 반환할 수 있습니다. SDK를 쓰면 자동 처리되지만, REST API를 직접 호출하거나 대화 히스토리를 수동으로 수정하는 경우에는 시그니처가 포함된 파트를 그대로 돌려줘야 합니다. 파트를 합치거나 시그니처를 제거하면 추론 연속성이 끊깁니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini 3.1 Flash-Lite는 무료로 쓸 수 있나요?

Google AI Studio에서 무료 체험이 가능합니다. 단, API 호출에는 무료 할당량 한도가 있습니다. 공식 레이트 리밋 문서에서 모델별 분당 요청 수를 확인할 수 있습니다. (비율 제한 공식 문서) 프로덕션 규모에서는 과금 플랜이 필요합니다.

Q2. Thinking을 완전히 끌 수 있나요?

minimal이 가장 낮은 레벨이지만, 공식 문서는 “minimal이 thinking을 완전히 보장하지는 않는다”고 밝혔습니다. 복잡한 코딩 작업에서는 minimal로 설정해도 모델이 아주 조금 생각할 수 있습니다. 사고 토큰이 완전히 0이 되는 것을 보장하려면 Gemini 2.5 Flash에서 thinkingBudget=0을 쓰는 것이 더 확실합니다.

Q3. Gemini 3 Flash와 3.1 Flash-Lite 중 어느 걸 써야 하나요?

속도와 단가가 최우선이면 3.1 Flash-Lite, 추론 기본값을 high로 유지하면서 쓰고 싶다면 3 Flash가 더 적합합니다. Reddit 커뮤니티 실사용자들은 3.1 Flash-Lite를 3 Flash의 fallback 모델로 구성하거나, 대량 처리 파이프라인의 1차 필터로 쓰는 사례를 소개했습니다.

Q4. 한국어 지원은 어떻게 되나요?

공식 모델 페이지에서 다국어 벤치마크인 MMMLU 한국어 포함 다국어 Q&A 지원을 명시하고 있습니다. Flash-Lite의 MMMLU 점수는 88.9%로, 동급 경쟁 모델 중 가장 높습니다. (출처: Google DeepMind 공식 모델 페이지) 한국어 번역, 콘텐츠 분류 작업에 바로 사용 가능합니다.

Q5. Preview 버전인데 언제 정식 출시되나요?

Vertex AI 공식 문서 기준 2026년 3월 3일 Preview 출시 기록만 있고, 정식(GA) 출시 일정은 아직 공개되지 않았습니다. 구글이 공식 일정을 발표한 바 없습니다. Gemini 2.5 Flash의 경우 Preview 출시 후 약 3개월 뒤 GA 전환이 이뤄진 전례가 있지만, 이번 모델에 동일한 일정을 적용할 근거는 없습니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash-Lite는 확실히 빠릅니다. 363 TPS는 동급 경쟁 모델 중 압도적이고, GPQA Diamond 86.9%는 이전 세대 상위 모델을 넘는 수치입니다. 그런데 이 모델을 제대로 쓰려면 Thinking Levels를 이해하는 게 전제 조건입니다.

기본값이 minimal이라는 사실을 모르면, 기대한 추론 성능이 나오지 않습니다. 반대로 모든 작업에 high를 걸면 사고 토큰 비용이 생각보다 빠르게 쌓입니다. 작업 유형에 맞는 레벨을 직접 설정하고, thoughtsTokenCount로 실제 비용을 모니터링하는 습관이 필요합니다.

Preview 단계라는 것도 기억해둬야 합니다. 지금 당장 대규모 상용 서비스에 투입하기보다는, 파이프라인 일부 구간에서 테스트하면서 안정성을 확인하는 접근이 현실적입니다. 속도가 필요한 구간에는 Flash-Lite, 추론 깊이가 중요한 구간에는 Flash나 Pro를 혼합하는 방식이 지금 시점에서 가장 실용적입니다.

📚 본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
  2. Google DeepMind — Gemini 3.1 Flash-Lite 공식 모델 페이지
  3. Google AI Developers — Thinking 기능 가이드
  4. Google Cloud Vertex AI — Gemini 3.1 Flash-Lite 공식 문서 (한국어, 2026.03.21 업데이트)
  5. Google AI Developers — Gemini API 비율 제한 문서

본 포스팅은 2026년 3월 25일 기준으로 작성되었습니다. Gemini 3.1 Flash-Lite는 현재 Preview 단계이며, 작성 이후 서비스 정책·가격·UI·기능이 변경될 수 있습니다. 최신 정보는 Google 공식 문서에서 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기