2026.03.03 기준
Preview 버전
Gemini 3 시리즈

Gemini 3.1 Flash-Lite: “싸다”믿으면
Thinking HIGH에서 비용 9배 맞는 이유

구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite는 입력 토큰 100만 개당 $0.25라는 수치로 “초저가 AI”의 대명사처럼 불리고 있습니다. 하지만 이 모델의 가격표에는 숨겨진 구조가 있습니다. Thinking 수준을 HIGH로 설정하는 순간 출력 토큰이 65,000개를 돌파한 실측 사례가 이미 공개되어 있으며, FACTS 팩추얼 벤치마크에서는 전 세대 모델에 뒤처지는 결과도 공식 모델 카드에 명시되어 있습니다. 공식 수치로 지금 전부 풀어드립니다.

$0.25

입력 1M 토큰

363 tok/s

출력 속도

86.9%

GPQA Diamond

40.6%

FACTS (주의)

Gemini 3.1 Flash-Lite, 무엇이 달라졌나?

구글 딥마인드는 2026년 3월 3일 Gemini 3.1 Flash-Lite를 공식 발표했습니다. 이 모델은 Gemini 3 시리즈에서 가장 저렴하고 빠른 포지션을 차지하며, 구글 AI Studio와 Vertex AI에서 미리보기(Preview) 형태로 배포되고 있습니다. (출처: Google Blog, 2026.03.03)

공식 모델 카드에 따르면 이 모델의 아키텍처는 Gemini 3 Pro를 기반으로 한 증류(distillation) 구조입니다. 단순히 이전 세대를 재포장한 것이 아니라 Gemini 3 Pro의 추론 구조를 가볍게 바꾼 독립 모델이라는 점이 기존 2.5 Flash-Lite와의 결정적 차이입니다. (출처: Google DeepMind Model Card, 2026.03.03)

모델이 지원하는 입력 형태는 텍스트, 이미지, 오디오, 동영상 파일이며 컨텍스트 창은 최대 100만 토큰, 출력 한도는 64K 토큰입니다. Gemini 2.5 Flash-Lite의 동일한 컨텍스트 창과 출력 한도를 유지하면서 속도를 대폭 끌어올렸다는 것이 구글의 핵심 마케팅 포인트입니다.

💡 이 섹션에서만 확인되는 포인트: Gemini 3.1 Flash-Lite는 공식적으로 “Gemini 3 Pro 기반 증류 모델”입니다. 이 한 줄이 이후 벤치마크 해석에서 핵심적인 맥락이 됩니다. 부모 모델이 3 Pro인데 왜 특정 팩추얼 벤치마크에서 2.5 Flash보다 낮은지 — 그 이유가 아키텍처 설계 목적에 있습니다.

▲ 목차로 돌아가기

“초저가”라는 말의 진짜 의미: 가격표를 다시 읽는 법

Gemini 3.1 Flash-Lite의 공식 가격은 입력 $0.25/1M 토큰, 출력 $1.50/1M 토큰입니다. (출처: Gemini Developer API 가격 페이지) 이 수치만 보면 동급 경쟁 모델 중 가장 저렴한 수준처럼 보입니다. 하지만 직전 세대 모델과 실제로 비교해 보면 이야기가 달라집니다.

모델	입력 $/ 1M	출력 $/ 1M	출력 속도
Gemini 3.1 Flash-Lite	$0.25	$1.50	363 tok/s
Gemini 2.5 Flash-Lite	$0.10	$0.40	366 tok/s
Gemini 2.5 Flash	$0.30	$2.50	249 tok/s
GPT-5 mini	$0.25	$2.00	71 tok/s
Grok 4.1 Fast	$0.20	$0.50	145 tok/s

(출처: Google DeepMind Model Card, 2026.03.03)

이 표가 의미하는 것은 명확합니다. Gemini 3.1 Flash-Lite의 출력 가격 $1.50은 직전 세대인 Gemini 2.5 Flash-Lite($0.40)의 3.75배입니다. 입력 가격도 $0.10 → $0.25로 2.5배 상승했습니다. Grok 4.1 Fast와 비교하면 입력은 비슷하지만 출력은 무려 3배나 비쌉니다. “초저가”라는 표현은 동일 세대 최상위 모델 Gemini 3.1 Pro($10.50/1M output) 대비로만 성립하는 수치입니다.

직접 계산해 볼 수 있습니다. 하루 10만 토큰 출력 작업을 처리한다면: Gemini 2.5 Flash-Lite는 $0.04, Gemini 3.1 Flash-Lite는 $0.15입니다. 월 기준으로 환산하면 각각 약 $1.2 vs $4.5로 약 3.75배의 비용 차이가 발생합니다. 이것이 이 모델을 “저렴하다”고 단순 인식할 때 실제로 지불하게 되는 대가입니다.

▲ 목차로 돌아가기

Thinking HIGH 모드, 실측하면 어떻게 됩니까?

Gemini 3.1 Flash-Lite의 핵심 신기능은 사고 수준(Thinking Levels)입니다. Minimal, Low, Standard, High 네 단계로 모델이 응답 전에 내부적으로 추론하는 깊이를 조절할 수 있습니다. 구글 공식 블로그는 이 기능이 “고빈도 워크플로우 비용 관리에 유연성을 준다”고 소개합니다. (출처: Google Blog, 2026.03.03)

⚠️ AI Studio 실측 데이터 (Reddit r/Bard, 2026.03.03, 업보트 189)

동일 프롬프트 조건에서 실측 비교:

• Gemini 2.5 Flash-Lite: 출력 6,980 토큰

• Gemini 3.1 Flash-Lite (Thinking HIGH): 출력 65,436 토큰 (최대 출력 한도 근접)

→ 동일 작업에서 토큰 소모량이 약 9.37배 폭증

이 수치가 의미하는 것은 간단합니다. Thinking HIGH 상태에서 같은 작업을 돌리면 출력 토큰 기준으로 2.5 Flash-Lite 대비 약 9배 더 많은 토큰이 청구됩니다. 여기서 가격까지 곱해보면 상황이 더 심각해집니다.

💡 공식 수치로 역산: 같은 작업의 실질 비용 비교

Gemini 2.5 Flash-Lite: 6,980 토큰 × $0.40/1M = $0.0028
Gemini 3.1 Flash-Lite (HIGH): 65,436 토큰 × $1.50/1M = $0.0981
→ 같은 작업, 실질 비용 35배 차이
(토큰 수 출처: Reddit r/Bard 실측 / 가격 출처: Google API 공식 가격표)

실측자는 “Thinking MINIMAL과 LOW 모드는 합리적이지만, HIGH 모드는 현재 상태로는 사용 불가 수준”이라고 평가했습니다. 구글의 공식 벤치마크 수치는 모두 Thinking HIGH 기준으로 측정된 것이므로, 그 인상적인 벤치마크 점수를 재현하려면 위의 비용 폭발을 감수해야 합니다.

결론적으로 이 모델의 비용 효율성은 Thinking 수준을 Minimal 또는 Low로 고정한 경우에만 성립합니다. 아무 설정 없이 AI Studio에서 기본값(High)으로 사용할 경우 기대했던 “초저가”와는 전혀 다른 청구서를 받을 수 있습니다.

▲ 목차로 돌아가기

벤치마크 1432 Elo 뒤에 숨겨진 점수 하나

구글의 공식 발표에는 Arena.ai Leaderboard Elo 1432라는 수치가 전면에 내세워져 있고, GPQA Diamond 86.9%, MMMU-Pro 76.8% 등 동급 모델 1위 수준의 성능이 강조됩니다. 여기까지가 거의 모든 소개 글이 끝나는 지점입니다.

하지만 공식 모델 카드의 벤치마크 표 전체를 보면 전혀 다른 그림이 나타납니다. FACTS Benchmark Suite(팩추얼 정확성 종합 지표)에서 Gemini 3.1 Flash-Lite는 40.6%를 기록했습니다. 이는 비교군인 Gemini 2.5 Flash Dynamic(50.4%)보다 9.8%p 낮은 수치입니다. (출처: Google DeepMind Model Card, 2026.03.03)

벤치마크	3.1 Flash-Lite	2.5 Flash	GPT-5 mini	Grok 4.1 Fast
GPQA Diamond (과학 지식)	86.9% 🏆	82.8%	82.3%	84.3%
MMMU-Pro (멀티모달)	76.8% 🏆	66.7%	74.1%	63.0%
SimpleQA (실제 사실 정확성)	이 글 공유하기: X Facebook 이것이 좋아요: 좋아하기 로드 중… 구글 AI 모델, Gemini 3.1 Flash-Lite, Gemini API 가격, 제미나이 Flash-Lite, 제미나이 사고 수준 Read Next: 청약통장 소득공제 배우자: “부부 둘 다 받는다”믿으면 공제 0원 되는 이유 전세보증보험 가입해도 보증금 날리는 5가지 함정 댓글 남기기응답 취소 검색 관련 글 제미나이 3.1 Flash-Lite: 느린 AI에 돈 버리던 개발자가 갈아타야 할 이유 제미나이 3.1 Flash-Lite 완전정복: 무료로 쓰는 초고속 AI의 진짜 실력 제미나이 3.1 Flash-Lite 사용법: 공짜에 가까운 AI API, 지금 안 쓰면 손해 제미나이 3.1 Flash Lite 완전정복: Pro 1/8 가격, 속도 2.5배 지금 안 쓰면 손해 Gemini 3.1 Flash-Lite, 저렴하다는 말이 절반만 맞는 이유 제미나이 3.1 플래시 라이트, 이 작업엔 쓰면 안 됩니다 최신 글 2026 근로장려금 신청 기준 지급액 계산, 먼저 확인할 결정 기준 먼저 답 근로장려금은 블로그 표 하나로 확정하면 안 됩니다. 먼저 가구 유형, 총소득, 재산 합계, 신청기한을 홈택스 계산기나 신청 화면에 넣고, 기한 후 신청이면 산정액에서 5% 감액될 수 있다고 봐야 합니다.… Read more: 2026 근로장려금 신청 기준 지급액 계산, 먼저 확인할 결정 기준 2026 연말정산 월세 세액공제 한도 조건 계산, 최대 170만원보다 먼저 볼 탈락 조건 먼저 답 월세 세액공제는 환급액부터 계산하면 늦습니다. 먼저 총급여 8,000만원 이하, 무주택, 등본 주소와 계약서 주소 일치, 대상 주택 기준을 통과하는지 보세요. 이 네 가지가 맞으면 연간 월세 1,000만원까지 15% 또는… Read more: 2026 연말정산 월세 세액공제 한도 조건 계산, 최대 170만원보다 먼저 볼 탈락 조건 정수기 필터 교체 비용 정품 호환 가격 비교, 지금 얼마를 잡고 어떻게 고를까 먼저 답 정수기 필터는 모델명과 필터 품번을 먼저 확인한 뒤 정품과 호환품을 유효정수량 기준으로 비교해야 합니다. 가격만 보면 호환 필터가 싸지만, 성능 기준 미달 사례가 있으면 절감액보다 위험이 큽니다. 핵심 가격… Read more: 정수기 필터 교체 비용 정품 호환 가격 비교, 지금 얼마를 잡고 어떻게 고를까 AI 구독 1개만 고른다면 ChatGPT Plus Claude Pro Gemini AI Pro Perplexity Pro 비교, 상황별 선택 기준 먼저 답 AI 구독을 하나만 골라야 한다면, '주요 사용 목적'에 따라 최적의 선택이 달라집니다. 만약 최신 정보 기반의 리서치가 가장 중요하다면 Perplexity Pro(월 $20)를, 범용성과 사용자 친숙함을 원한다면 ChatGPT Plus(월 $20)를… Read more: AI 구독 1개만 고른다면 ChatGPT Plus Claude Pro Gemini AI Pro Perplexity Pro 비교, 상황별 선택 기준 perplexity pro 가격 2026 요금제 기능 비교, 지금 얼마를 잡고 어떻게 고를까 핵심 체크 포인트 perplexity pro 가격 2026 요금제 기능 비교, 지금 얼마를 잡고 어떻게 고를까 Perplexity는 무료 사용도 가능하지만, 전문적인 리서치나 무제한 활용이 필요하다면 유료 구독을 고려해야 합니다. 현재 Pro 요금은… Read more: perplexity pro 가격 2026 요금제 기능 비교, 지금 얼마를 잡고 어떻게 고를까 국민연금 보험료율 2026년 변화, 내 납부액과 수령액 계산법 총정리 핵심 체크 포인트 국민연금 보험료율 2026년 변화, 내 납부액과 수령액 계산법 총정리 국민연금의 변화는 단순히 '보험료 인상'이라는 단편적 이슈가 아니라, 보험료율 단계적 인상과 소득대체율 조정이 복합적으로 작용하는 구조적 변화이므로, 현재 나의… Read more: 국민연금 보험료율 2026년 변화, 내 납부액과 수령액 계산법 총정리 애플워치 SE 배터리 교체, 비용 비교 전 반드시 확인해야 할 3가지 기준 핵심 체크 포인트 애플워치 SE 배터리 교체, 비용 비교 전 반드시 확인해야 할 3가지 기준 애플워치 SE 배터리 교체는 단순히 '배터리 부품'을 바꾸는 행위가 아니라, 현재 기기 전체의 사용 가치를 재평가하여… Read more: 애플워치 SE 배터리 교체, 비용 비교 전 반드시 확인해야 할 3가지 기준 퇴사 후 건강보험료, 임의계속가입으로 아끼는 3단계 점검법 핵심 체크 포인트 퇴사 후 건강보험료, 임의계속가입으로 아끼는 3단계 점검법 임의계속가입은 퇴사 후 보험료 부담을 완화하는 유용한 제도이지만, 그 혜택을 받기 위해서는 '지역가입자 고지일 기준 2개월 이내'라는 엄격한 신청 기한과 복합적인… Read more: 퇴사 후 건강보험료, 임의계속가입으로 아끼는 3단계 점검법 보증금 못 받을 때, 임차권등기명령 신청부터 권리 유지까지 완벽 가이드 핵심 체크 포인트 보증금 못 받을 때, 임차권등기명령 신청부터 권리 유지까지 완벽 가이드 보증금 반환이 지연되는 상황에서 임차권등기명령은 단순한 등기가 아니라, 이사나 전입신고로 인해 잃을 수 있는 '시간적 권리' 자체를 법적으로… Read more: 보증금 못 받을 때, 임차권등기명령 신청부터 권리 유지까지 완벽 가이드 개인회생 자격, 헷갈리는 기준점부터 필수 서류까지 완벽 점검 가이드 핵심 체크 포인트 개인회생 자격, 헷갈리는 기준점부터 필수 서류까지 완벽 점검 가이드 개인회생 자격은 단순히 '빚이 많다'는 사실만으로 결정되지 않으며, 총 채무 규모의 법적 한도 초과 여부, 과거 절차 이력의 변화된… Read more: 개인회생 자격, 헷갈리는 기준점부터 필수 서류까지 완벽 점검 가이드 이메일 주소 입력… 카테고리 5세대실손보험 2026세법개정 Aardvark OpenAI AI 모델 비교 AI모델비교 AI 에이전트 AI에이전트2026 AI에이전트만들기 AI 코딩 도구 AI코딩도구 AI 코딩 에이전트 AI코딩에이전트 Anthropic 1M 토큰 ChatGPT 2026 Gemini 3.1 Flash-Lite Gemini 3.1 Pro Gemini API Gemini CLI Google AI Pro Google AI Studio GPT-5.4 NotebookLM Perplexity Computer Perplexity Max Windsurf xAI 구글 AI 2026 구글AI MAX광고 금융소득종합과세 기타소득세 노란우산공제 노란우산공제해지 단순경비율 단순경비율 기준경비율 바이브코딩 삼성에이전틱AI 소득공제 소상공인절세 전월세신고제 종합소득세 종합소득세신고 청년미래적금 퇴직금중간정산 퇴직소득세 프리랜서세금 Tags 5세대실손보험 2026세법개정 Aardvark OpenAI AI 모델 비교 AI모델비교 AI 에이전트 AI에이전트2026 AI에이전트만들기 AI 코딩 도구 AI코딩도구 AI 코딩 에이전트 AI코딩에이전트 Anthropic 1M 토큰 ChatGPT 2026 Gemini 3.1 Flash-Lite Gemini 3.1 Pro Gemini API Gemini CLI Google AI Pro Google AI Studio GPT-5.4 NotebookLM Perplexity Computer Perplexity Max Windsurf xAI 구글 AI 2026 구글AI MAX광고 금융소득종합과세 기타소득세 노란우산공제 노란우산공제해지 단순경비율 단순경비율 기준경비율 바이브코딩 삼성에이전틱AI 소득공제 소상공인절세 전월세신고제 종합소득세 종합소득세신고 청년미래적금 퇴직금중간정산 퇴직소득세 프리랜서세금 Twitch X Tumblr 아이테크 어른경제에서 더 알아보기 지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요. 이메일 주소 입력… 계속 읽기