Gemini 3.1 Flash-Lite: “싸다”믿으면 Thinking HIGH에서 비용 9배 맞는 이유

Published on

in

Gemini 3.1 Flash-Lite: “싸다”믿으면 Thinking HIGH에서 비용 9배 맞는 이유

2026.03.03 기준
Preview 버전
Gemini 3 시리즈

Gemini 3.1 Flash-Lite: “싸다”믿으면
Thinking HIGH에서 비용 9배 맞는 이유

구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite는 입력 토큰 100만 개당 $0.25라는 수치로 “초저가 AI”의 대명사처럼 불리고 있습니다. 하지만 이 모델의 가격표에는 숨겨진 구조가 있습니다. Thinking 수준을 HIGH로 설정하는 순간 출력 토큰이 65,000개를 돌파한 실측 사례가 이미 공개되어 있으며, FACTS 팩추얼 벤치마크에서는 전 세대 모델에 뒤처지는 결과도 공식 모델 카드에 명시되어 있습니다. 공식 수치로 지금 전부 풀어드립니다.

$0.25
입력 1M 토큰
363 tok/s
출력 속도
86.9%
GPQA Diamond
40.6%
FACTS (주의)

Gemini 3.1 Flash-Lite, 무엇이 달라졌나?

구글 딥마인드는 2026년 3월 3일 Gemini 3.1 Flash-Lite를 공식 발표했습니다. 이 모델은 Gemini 3 시리즈에서 가장 저렴하고 빠른 포지션을 차지하며, 구글 AI Studio와 Vertex AI에서 미리보기(Preview) 형태로 배포되고 있습니다. (출처: Google Blog, 2026.03.03)

공식 모델 카드에 따르면 이 모델의 아키텍처는 Gemini 3 Pro를 기반으로 한 증류(distillation) 구조입니다. 단순히 이전 세대를 재포장한 것이 아니라 Gemini 3 Pro의 추론 구조를 가볍게 바꾼 독립 모델이라는 점이 기존 2.5 Flash-Lite와의 결정적 차이입니다. (출처: Google DeepMind Model Card, 2026.03.03)

모델이 지원하는 입력 형태는 텍스트, 이미지, 오디오, 동영상 파일이며 컨텍스트 창은 최대 100만 토큰, 출력 한도는 64K 토큰입니다. Gemini 2.5 Flash-Lite의 동일한 컨텍스트 창과 출력 한도를 유지하면서 속도를 대폭 끌어올렸다는 것이 구글의 핵심 마케팅 포인트입니다.

💡 이 섹션에서만 확인되는 포인트: Gemini 3.1 Flash-Lite는 공식적으로 “Gemini 3 Pro 기반 증류 모델”입니다. 이 한 줄이 이후 벤치마크 해석에서 핵심적인 맥락이 됩니다. 부모 모델이 3 Pro인데 왜 특정 팩추얼 벤치마크에서 2.5 Flash보다 낮은지 — 그 이유가 아키텍처 설계 목적에 있습니다.

▲ 목차로 돌아가기

“초저가”라는 말의 진짜 의미: 가격표를 다시 읽는 법

Gemini 3.1 Flash-Lite의 공식 가격은 입력 $0.25/1M 토큰, 출력 $1.50/1M 토큰입니다. (출처: Gemini Developer API 가격 페이지) 이 수치만 보면 동급 경쟁 모델 중 가장 저렴한 수준처럼 보입니다. 하지만 직전 세대 모델과 실제로 비교해 보면 이야기가 달라집니다.

모델 입력 $/ 1M 출력 $/ 1M 출력 속도
Gemini 3.1 Flash-Lite $0.25 $1.50 363 tok/s
Gemini 2.5 Flash-Lite $0.10 $0.40 366 tok/s
Gemini 2.5 Flash $0.30 $2.50 249 tok/s
GPT-5 mini $0.25 $2.00 71 tok/s
Grok 4.1 Fast $0.20 $0.50 145 tok/s

(출처: Google DeepMind Model Card, 2026.03.03)

이 표가 의미하는 것은 명확합니다. Gemini 3.1 Flash-Lite의 출력 가격 $1.50은 직전 세대인 Gemini 2.5 Flash-Lite($0.40)의 3.75배입니다. 입력 가격도 $0.10 → $0.25로 2.5배 상승했습니다. Grok 4.1 Fast와 비교하면 입력은 비슷하지만 출력은 무려 3배나 비쌉니다. “초저가”라는 표현은 동일 세대 최상위 모델 Gemini 3.1 Pro($10.50/1M output) 대비로만 성립하는 수치입니다.

직접 계산해 볼 수 있습니다. 하루 10만 토큰 출력 작업을 처리한다면: Gemini 2.5 Flash-Lite는 $0.04, Gemini 3.1 Flash-Lite는 $0.15입니다. 월 기준으로 환산하면 각각 약 $1.2 vs $4.5로 약 3.75배의 비용 차이가 발생합니다. 이것이 이 모델을 “저렴하다”고 단순 인식할 때 실제로 지불하게 되는 대가입니다.

▲ 목차로 돌아가기

Thinking HIGH 모드, 실측하면 어떻게 됩니까?

Gemini 3.1 Flash-Lite의 핵심 신기능은 사고 수준(Thinking Levels)입니다. Minimal, Low, Standard, High 네 단계로 모델이 응답 전에 내부적으로 추론하는 깊이를 조절할 수 있습니다. 구글 공식 블로그는 이 기능이 “고빈도 워크플로우 비용 관리에 유연성을 준다”고 소개합니다. (출처: Google Blog, 2026.03.03)

⚠️ AI Studio 실측 데이터 (Reddit r/Bard, 2026.03.03, 업보트 189)

동일 프롬프트 조건에서 실측 비교:

• Gemini 2.5 Flash-Lite: 출력 6,980 토큰

• Gemini 3.1 Flash-Lite (Thinking HIGH): 출력 65,436 토큰 (최대 출력 한도 근접)

→ 동일 작업에서 토큰 소모량이 약 9.37배 폭증

이 수치가 의미하는 것은 간단합니다. Thinking HIGH 상태에서 같은 작업을 돌리면 출력 토큰 기준으로 2.5 Flash-Lite 대비 약 9배 더 많은 토큰이 청구됩니다. 여기서 가격까지 곱해보면 상황이 더 심각해집니다.

💡 공식 수치로 역산: 같은 작업의 실질 비용 비교

Gemini 2.5 Flash-Lite: 6,980 토큰 × $0.40/1M = $0.0028
Gemini 3.1 Flash-Lite (HIGH): 65,436 토큰 × $1.50/1M = $0.0981
→ 같은 작업, 실질 비용 35배 차이
(토큰 수 출처: Reddit r/Bard 실측 / 가격 출처: Google API 공식 가격표)

실측자는 “Thinking MINIMAL과 LOW 모드는 합리적이지만, HIGH 모드는 현재 상태로는 사용 불가 수준”이라고 평가했습니다. 구글의 공식 벤치마크 수치는 모두 Thinking HIGH 기준으로 측정된 것이므로, 그 인상적인 벤치마크 점수를 재현하려면 위의 비용 폭발을 감수해야 합니다.

결론적으로 이 모델의 비용 효율성은 Thinking 수준을 Minimal 또는 Low로 고정한 경우에만 성립합니다. 아무 설정 없이 AI Studio에서 기본값(High)으로 사용할 경우 기대했던 “초저가”와는 전혀 다른 청구서를 받을 수 있습니다.

▲ 목차로 돌아가기

벤치마크 1432 Elo 뒤에 숨겨진 점수 하나

구글의 공식 발표에는 Arena.ai Leaderboard Elo 1432라는 수치가 전면에 내세워져 있고, GPQA Diamond 86.9%, MMMU-Pro 76.8% 등 동급 모델 1위 수준의 성능이 강조됩니다. 여기까지가 거의 모든 소개 글이 끝나는 지점입니다.

하지만 공식 모델 카드의 벤치마크 표 전체를 보면 전혀 다른 그림이 나타납니다. FACTS Benchmark Suite(팩추얼 정확성 종합 지표)에서 Gemini 3.1 Flash-Lite는 40.6%를 기록했습니다. 이는 비교군인 Gemini 2.5 Flash Dynamic(50.4%)보다 9.8%p 낮은 수치입니다. (출처: Google DeepMind Model Card, 2026.03.03)

벤치마크 3.1 Flash-Lite 2.5 Flash GPT-5 mini Grok 4.1 Fast
GPQA Diamond (과학 지식) 86.9% 🏆 82.8% 82.3% 84.3%
MMMU-Pro (멀티모달) 76.8% 🏆 66.7% 74.1% 63.0%
SimpleQA (실제 사실 정확성)

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기