Gemini 3.1 Flash-Lite, 싸다고요? 이 조건에서 역전됩니다

Published on

in

Gemini 3.1 Flash-Lite, 싸다고요? 이 조건에서 역전됩니다

2026.03.03 출시 기준
Preview
gemini-3.1-flash-lite-preview

Gemini 3.1 Flash-Lite, 싸다고요?
이 조건에서 역전됩니다

구글이 “역대 최고 가성비”라 소개한 모델입니다. 입력 토큰 1M당 $0.25 — 숫자만 보면 맞는 말 같습니다. 그런데 Thinking 모드를 기본값으로 두고 쓰면 같은 작업에서 출력 토큰이 최대 9배 넘게 폭증합니다. 공식 벤치마크와 실사용 수치를 같이 놓고 보니 조건에 따라 전혀 다른 결론이 나왔습니다.

$0.25
입력 1M 토큰
363 TPS
출력 속도
1432 Elo
Arena.ai 리더보드
1M
컨텍스트 윈도우

Gemini 3.1 Flash-Lite가 뭔지 30초로 정리

2026년 3월 3일, 구글이 Gemini 3 시리즈 중 가장 저렴하고 빠른 모델을 프리뷰로 공개했습니다. 이름은 Gemini 3.1 Flash-Lite, 모델 ID는 gemini-3.1-flash-lite-preview입니다. Google AI Studio와 Vertex AI에서 지금 바로 쓸 수 있습니다.

포지셔닝은 명확합니다. 번역, 콘텐츠 분류, 대규모 레이블링처럼 수백만 건씩 처리해야 하는 고빈도 작업에 최적화된 모델입니다. 구글 DeepMind 공식 모델 카드에는 “고빈도·저지연 추론 작업용”이라고 딱 명시돼 있습니다.

여기에 기존 Flash-Lite와 다른 결정적 차이 하나가 더 붙었습니다. Thinking(추론) 레벨을 개발자가 직접 조정할 수 있게 된 것입니다. Minimal, Low, High 세 단계 중 선택하거나 아예 끌 수도 있습니다. 그런데 이 기능이 비용 계산을 완전히 다르게 만드는 변수가 됩니다.

공식 벤치마크에 나온 수치 그대로

구글이 공식 발표에서 제시한 벤치마크 비교표를 정리했습니다. Thinking=High 기준 수치입니다. (출처: Google DeepMind 공식 모델 카드, 2026.03.03)

항목 3.1 Flash-Lite 2.5 Flash GPT-5 mini Claude 4.5 Haiku
입력가격 ($/1M) $0.25 $0.30 $0.25 $1.00
출력가격 ($/1M) $1.50 $2.50 $2.00 $5.00
출력 속도 (TPS) 363 249 71 108
GPQA Diamond 86.9% 82.8% 82.3% 73.0%
MMMU-Pro 76.8% 66.7% 74.1% 58.0%
FACTS Benchmark 40.6% 50.4% 33.7% 18.6%
LiveCodeBench 72.0% 62.6% 80.4% 53.2%

대부분의 지표에서 2.5 Flash를 앞섭니다. 특히 과학 지식(GPQA Diamond 86.9%), 멀티모달 이해(MMMU-Pro 76.8%), 출력 속도(363 TPS)는 같은 가격대 모델 중 상위권입니다. 코딩(LiveCodeBench)에서만 GPT-5 mini에 뒤집힙니다.

그런데 표를 천천히 다시 보면 이상한 숫자가 하나 눈에 걸립니다. FACTS Benchmark 40.6% — 2.5 Flash(50.4%)보다 10%p 낮고, 2.5 Flash-Lite와 비교하면 그 차이는 훨씬 더 큽니다. 다음 섹션에서 따로 다룹니다.

Thinking 모드가 숨긴 비용의 진짜 크기

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 구글은 Thinking=High 기준 벤치마크를 제시했지만, High 모드에서 실제 토큰 사용량이 어떻게 변하는지는 공식 문서에서 별도로 안내하지 않았습니다.

Reddit 사용자 ThomasMalloc이 AI Studio에서 실제로 측정한 수치를 공개했습니다. 같은 프롬프트를 2.5 Flash-Lite와 3.1 Flash-Lite에 각각 Thinking=High로 돌려봤을 때 결과입니다.

// 동일 프롬프트 + Thinking=High 실측 (출처: Reddit r/Bard, 2026.03.03)
2.5 Flash-Lite 출력 토큰: 6,980 tokens
3.1 Flash-Lite 출력 토큰: 65,436 tokens (최대치 거의 도달)
차이: 약 9.4배
3.1 Flash-Lite는 max output 65,536을 거의 채워버렸음

출력 토큰이 9.4배 늘어난다는 건 비용 계산에서 이렇게 됩니다.

💰 Thinking=High, 출력 100만 토큰 처리 시 비용 비교
2.5 Flash-Lite (출력): $0.40 per 1M tokens
3.1 Flash-Lite (출력): $1.50 per 1M tokens × 9.4배 폭증
= 실제 체감 출력비용: 약 $14.10 — 2.5 Flash-Lite 대비 35배 이상

같은 한도(15,000 토큰)로 바꿔 재테스트해도 JSON 출력이 미완성으로 끊겼다는 후기도 있습니다. Hacker News 논의에서 한 개발자는 “High 모드에서는 최대 출력에 근접할 때까지 추론 토큰을 소진한다, 수백만 토큰 단위로 금세 쌓인다”고 지적했습니다. (출처: Hacker News item #47234962, 2026.03.04)

구글 공식 문서에는 Thinking 토큰도 출력 토큰으로 과금된다고 명시돼 있습니다. Minimal 또는 Low로 고정하지 않으면 단가의 이점이 실비용에서 그대로 사라집니다.

FACTS 점수, 전 세대보다 절반 이하인 이유

💡 벤치마크 점수가 일제히 올라갔는데 딱 하나만 역주행하는 게 보였습니다 — 그 항목이 실무에서 제일 중요한 경우가 많습니다.

FACTS Benchmark Suite는 구글 검색 기반 사실 확인, 파라메트릭 지식, 멀티모달 사실 응답 등을 종합 평가하는 지표입니다. 쉽게 말해 “이 모델이 검색·문서를 근거로 얼마나 정확하게 답하는가”를 측정합니다.

모델 FACTS 점수 평가
Gemini 2.5 Flash-Lite 84.1% ✅ 최고 수준
Gemini 2.5 Flash 50.4% 우위
Gemini 3.1 Flash-Lite 40.6% ❌ 2.5 Flash-Lite의 절반
Grok 4.1 Fast 42.1% 유사

(출처: Google DeepMind 공식 모델 카드 / llm-stats.com, 2026.03.03)

2.5 Flash-Lite(84.1%) 대비 3.1 Flash-Lite(40.6%)는 절반 이하입니다. 같은 Gemini 브랜드인데 세대가 올라갔는데도 이 항목에서만 역행합니다. 구글은 공식 발표문에서 이 부분에 대한 별도 설명을 내놓지 않았습니다.

이게 실무에서 의미하는 바는 분명합니다. Google Search Grounding을 연동해 최신 정보를 근거로 답변을 생성하는 워크플로우에서는 3.1 Flash-Lite가 2.5 Flash-Lite보다 훨씬 부정확하게 동작할 수 있습니다. 예를 들어 실시간 제품 정보 분류, 뉴스 기반 요약, RAG 파이프라인 등이 해당됩니다.

GPQA Diamond(과학 지식)와 MMMU-Pro(멀티모달 이해)에서는 전 세대를 앞서는 모델이, 사실 기반 응답만큼은 전 세대에 크게 밀립니다. 작업 유형을 먼저 확인해야 하는 이유입니다.

토큰 단가가 아닌 “작업당 총비용”으로 봐야 하는 이유

💡 가격표 숫자 하나로 모델을 고르면 실제 청구서가 달라집니다 — Hacker News와 Artificial Analysis의 실측 데이터를 교차해보니 이 구조가 보였습니다.

Artificial Analysis의 독립 벤치마크에서 흥미로운 수치가 나왔습니다. 3.1 Flash-Lite는 인텔리전스 인덱스 전체 평가를 수행하는 데 53M 토큰을 생성했습니다. 같은 평가를 돌린 모델의 평균 출력 토큰은 20M입니다. 2.65배 더 많이 씁니다. (출처: Artificial Analysis, 2026.03)

단가는 경쟁 모델 평균 수준($0.25/1M input)이지만, 같은 작업을 끝내는 데 토큰을 더 많이 소비한다면 총비용은 역전됩니다. Hacker News 토론에서도 같은 결론이 나왔습니다. “토큰당 가격이 아닌 작업당 총비용으로 측정해야 한다 — 추론 토큰 사용량이 모델과 작업에 따라 너무 다르게 나온다.” (출처: Hacker News item #47234962)

📊 Thinking 레벨별 비용 가이드 (추정)
Thinking=OFF / Minimal 추론 토큰 최소 → 가성비 실현 가능 ✅
Thinking=Low 출력 토큰 소폭 증가 → 작업에 따라 확인 필요
Thinking=High 출력 토큰 최대 9배 폭증 위험 ❌

※ 추정 근거: Reddit r/Bard 실측(6,980 vs 65,436 토큰) + Artificial Analysis 토큰 사용량 데이터 교차

결론부터 말씀드리면, 대규모 번역이나 이미지 분류처럼 단순 반복 작업에는 Thinking=Minimal 또는 OFF로 고정해야 가성비가 살아납니다. Thinking을 기본값으로 두는 순간 단가의 이점은 희석됩니다.

2026년 7월 이후 선택지가 좁아지는 구조

💡 가격 비교에서 항상 빠지는 변수가 있습니다 — 현재 쓰고 있는 모델이 언제 사라지느냐입니다.

Hacker News 논의에서 한 개발자가 짚은 부분이 있습니다. “Gemini 2.5 Flash-Lite는 2026년 7월 22일 지원 종료 예정입니다. 그 이후엔 같은 수준의 지능을 그 가격에 쓸 방법이 없어집니다.” 구글 공식 모델 버전 관리 정책에 따라 이 일정은 예정대로 진행됩니다.

현재 2.5 Flash-Lite 가격은 입력 $0.10/1M, 출력 $0.40/1M입니다. 3.1 Flash-Lite는 입력 $0.25/1M(2.5배), 출력 $1.50/1M(3.75배)입니다. 단순 토큰 단가만 봐도 2.5 Flash-Lite 대비 출력 기준 275% 인상입니다. (출처: Hacker News item #47234962)

이 흐름에서 구글 엔지니어링 팀 Logan의 발언도 흥미롭습니다. 저가형 Gemini 모델 지속 여부에 대한 질문에 “Gemma 같은 오픈소스 모델이 답이 될 수 있다”고 했습니다. (출처: HN 원문 인용, “Logan said: ‘I think open source models like Gemma might be the answer here’”) 구글이 저가형 API 모델 경쟁에서 빠지고 오픈소스로 역할을 넘길 수도 있다는 뉘앙스입니다.

물론 아직 공식 발표가 아니라 코멘트 수준입니다. 다만 2.5 Flash-Lite 종료 후 대체재를 지금부터 검토해두는 게 안전합니다. Qwen 3.5 Flash($0.10/1M input), MiMo-V2-Flash($0.09/1M input)처럼 유사 가격대 오픈소스 기반 모델도 현재 존재합니다.

Q&A 5가지

Q1. Gemini 3.1 Flash-Lite는 무료로 쓸 수 있나요?

Google AI Studio에서 무료 쿼터 내에서 테스트할 수 있습니다. 다만 현재 Preview 단계이므로 상용 서비스 적용 전에는 쿼터 한도와 SLA 조건을 별도로 확인해야 합니다. Vertex AI를 통한 엔터프라이즈 접근은 과금 기준이 다릅니다. (출처: Google AI Studio 공식 문서)

Q2. 코딩 작업에 쓰면 안 되나요?

LiveCodeBench 72.0%는 나쁘지 않지만 GPT-5 mini(80.4%)나 Grok 4.1 Fast(76.5%)보다 낮습니다. 실사용자들의 평가도 “앱 개발처럼 복잡한 코딩엔 적합하지 않고, commit 메시지 생성이나 간단한 스크립트 자동화 정도가 적당”이라는 쪽이 많습니다. 코딩이 핵심 워크플로우라면 GPT-5 mini나 Gemini 3 Flash 쪽이 낫습니다.

Q3. Thinking 모드를 완전히 끄면 어떻게 되나요?

추론 없이 빠르게 응답합니다. 번역, 분류, 단순 Q&A처럼 정해진 패턴 작업에서는 오히려 속도와 비용 면에서 최적입니다. 다만 벤치마크 수치들은 대부분 Thinking=High 기준이므로 OFF 상태에서는 성능이 그보다 낮습니다. Minimal 모드는 추론을 극히 최소화하면서 어느 정도 품질을 유지하는 절충점입니다.

Q4. 음성 인식(STT) 워크플로우에 적합한가요?

실측 데이터가 있습니다. 음성-텍스트 앱 Ottex 팀이 측정한 수치에 따르면 Gemini 3.1 Flash-Lite는 Gemini 3 Flash 대비 약 1.8배 빠르게(중간값 기준) 처리하며, 10초 이하 단문에서 약 1.4초 내 응답합니다. 100개 이상 언어를 하나의 모델로 처리할 수 있다는 점도 장점입니다. (출처: HN item #47234962 Ottex 벤치마크)

Q5. 지금 당장 기존 워크플로우를 교체해야 할까요?

서두를 필요는 없습니다. 현재 Preview 단계라 안정성 보장이 없고, 2.5 Flash-Lite는 2026년 7월까지 유지됩니다. 먼저 Thinking=Minimal 상태에서 핵심 작업 몇 가지를 테스트해 실제 토큰 사용량과 품질을 비교해보는 게 순서입니다. FACTS 계열 작업이 포함된 파이프라인이라면 더 신중하게 검토해야 합니다.

마치며

Gemini 3.1 Flash-Lite는 분명히 잘 만든 모델입니다. 363 TPS의 출력 속도, 86.9%의 GPQA Diamond, 76.8%의 MMMU-Pro는 같은 가격대 경쟁자들과 비교해 상위권이 맞습니다. 대규모 번역이나 멀티모달 레이블링처럼 명확히 정해진 작업에 Thinking=Minimal로 돌리면 가성비가 실현됩니다.

다만 Thinking=High로 복잡한 작업을 돌리거나, Google Search Grounding 연동이 중심인 워크플로우에서 그대로 쓰면 기대와 다른 결과를 만날 수 있습니다. 벤치마크 표에 나온 숫자가 어느 조건에서 나온 건지, 내 작업과 맞는 조건인지가 중요합니다.

2026년 7월 2.5 Flash-Lite 지원 종료를 앞두고 마냥 기다리기보다는, 지금부터 Thinking 레벨과 작업 유형을 조합해서 직접 테스트해보는 게 실질적입니다. 모델의 성능은 수치보다 내 파이프라인에서 어떻게 작동하느냐가 훨씬 중요합니다.

📚 본 포스팅 참고 자료
  1. Google Blog — “Gemini 3.1 Flash-Lite: Built for intelligence at scale” (2026.03.03) 바로가기
  2. Google DeepMind — Gemini 3.1 Flash-Lite 공식 모델 카드 (2026.03.03) 바로가기
  3. Google Cloud Vertex AI — Gemini 3.1 Flash-Lite 공식 문서 (2026.03.25 업데이트) 바로가기
  4. Artificial Analysis — Gemini 3.1 Flash-Lite Preview 독립 벤치마크 바로가기
  5. Reddit r/Bard — “Gemini 3.1 Flash-Lite Benchmark Comparison” (2026.03.03)
  6. Hacker News — “Gemini 3.1 Flash-Lite: Built for intelligence at scale” 토론 (item #47234962, 2026.03.04)

본 포스팅은 2026년 3월 27일 작성 기준입니다. Gemini 3.1 Flash-Lite는 현재 Preview 단계이며, 서비스 정책·가격·모델 성능·UI·기능이 공식 출시 이후 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치 인용 시 공식 출처를 직접 교차 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기