결론부터 말씀드리면, 인풋 토큰 가격은 분명히 쌉니다. 그런데 아웃풋 토큰 단가는 동급 경쟁 모델 평균보다 67% 비쌉니다.
팩트 검색 중심 태스크에선 이전 세대 2.5 Flash Dynamic보다 낮은 점수를 기록했고요. 공식 Model Card 수치를 직접 뜯어봤습니다.
Lite 모델이 ‘구형 Flash’를 이긴다고요?
보통 ‘Lite’ 붙은 모델 하면 성능을 깎아서 가격을 낮춘 버전이라고 생각하기 쉽습니다. 근데 Gemini 3.1 Flash-Lite는 공식 Model Card에 나온 수치가 좀 다릅니다. GPQA Diamond(과학 지식 벤치마크)에서 86.9%를 기록했는데, 같은 Model Card 기준으로 Gemini 2.5 Flash Dynamic은 82.8%입니다. (출처: Google DeepMind Model Card, 2026.03.03) Lite가 숫자상으론 앞서는 거죠.
MMMU-Pro(멀티모달 이해·추론)에서도 3.1 Flash-Lite가 76.8%, 2.5 Flash Dynamic이 66.7%입니다. 10%p 이상 차이입니다. 멀티모달 분류나 이미지 기반 태스크 위주로 쓰신다면, 이전 세대 Flash보다 이 Lite 모델이 더 나은 선택일 수 있습니다.
물론 ‘전체적으로 다 좋다’는 말은 아닙니다. FACTS 벤치마크(팩트 검색)에서 3.1 Flash-Lite는 40.6%인데 2.5 Flash Dynamic은 50.4%입니다. 팩트 기반 정보 검색 중심 서비스엔 오히려 점수가 떨어집니다.
가격 구조의 진짜 속사정
인풋 토큰은 1M 당 $0.25, 아웃풋 토큰은 1M 당 $1.50입니다. (출처: Google AI for Developers 공식 문서, 2026.03.18) 홍보 문구엔 “Gemini 3.1 Pro의 1/8 가격”이라고 나오는데, 이건 인풋 기준입니다. 아웃풋까지 포함하면 Pro 대비 약 1/8이 맞긴 한데, 경쟁 모델들과 붙이면 상황이 달라집니다.
💡 공식 가격표와 경쟁 모델을 나란히 놓고 보니 이런 차이가 보였습니다. Grok 4.1 Fast는 아웃풋 1M 당 $0.50, 2.5 Flash-Lite는 $0.40입니다. 3.1 Flash-Lite의 $1.50은 이 티어에서 가장 높은 축에 속합니다.
Artificial Analysis 벤치마크 기준으로 3.1 Flash-Lite를 Intelligence Index로 평가하는 데 든 비용은 총 $93.60이었고, 53M 토큰을 생성했습니다. 동급 평균이 20M 토큰이었다는 건 이 모델이 같은 질문에 더 많은 토큰을 쏟아낸다는 뜻입니다. (출처: Artificial Analysis, 2026.03.03) 말이 많은 모델이니, 아웃풋 단가가 높을수록 실제 비용이 더 빠르게 올라갑니다.
| 모델 | 인풋 $/1M | 아웃풋 $/1M |
|---|---|---|
| Grok 4.1 Fast | $0.20 | $0.50 |
| 2.5 Flash-Lite | $0.10 | $0.40 |
| 2.5 Flash Dynamic | $0.30 | $2.50 |
| 3.1 Flash-Lite ★ | $0.25 | $1.50 |
| Claude 4.5 Haiku | $1.00 | $5.00 |
| GPT-5 mini | $0.25 | $2.00 |
(출처: Google DeepMind Model Card / VentureBeat, 2026.03.03 기준)
인풋 단가만 보면 경쟁력이 있습니다. 그런데 아웃풋 단가까지 합산하면, 토큰을 많이 쓸수록 Grok 4.1 Fast나 2.5 Flash-Lite 대비 비용 격차가 커집니다. 아웃풋 토큰이 많이 나오는 문서 요약이나 긴 코드 생성 워크플로에선 2.5 Flash-Lite가 오히려 저렴할 수 있습니다.
Thinking Level이 Flash-Lite에도 들어온 이유
Flash-Lite 라인에 Thinking Level이 기본 탑재된 건 이번이 처음입니다. Google AI Studio와 Vertex AI에서 minimal, low, medium, high 네 단계로 추론 강도를 직접 설정할 수 있습니다. (출처: Google AI for Developers 공식 문서, 2026.03.18)
💡 Google의 오픈소스 Gemini CLI가 Flash-Lite를 모델 라우터로 쓴다는 점이 눈에 띄었습니다. 태스크 복잡도를 Flash-Lite가 먼저 분류하고, 단순 태스크는 Flash, 복잡한 건 Pro로 넘기는 구조입니다. 즉 Flash-Lite 자체가 작업 흐름의 ‘교통 정리 레이어’로 설계됐습니다.
이게 실제로 어떤 의미냐면, 같은 Flash-Lite를 쓰더라도 Thinking을 high로 올리면 단순 분류 모델처럼 쓰던 것과 추론 품질이 달라집니다. Latitude의 Head of AI Kolby Nottingham은 Flash-Lite 도입 후 이전 모델 대비 성공률이 20% 높아지고 추론 속도는 60% 빨라졌다고 밝혔습니다. (출처: Google 공식 블로그, 2026.03.03) 추론 강도를 태스크마다 다르게 쓸 수 있다는 게 이 모델의 진짜 유연함입니다.
다만 Thinking 강도를 높이면 응답 토큰이 늘어납니다. 아웃풋이 긴 만큼 비용도 같이 오릅니다. 항상 high로 설정하는 건 비용 구조 측면에서 Flash를 쓰는 것과 큰 차이가 없어질 수 있습니다.
팩트 검색에서 유독 약한 이유
FACTS 벤치마크(Factuality benchmark across grounding, parametric, search, and MM) 점수에서 3.1 Flash-Lite는 40.6%인데 2.5 Flash Dynamic은 50.4%입니다. (출처: Google DeepMind Model Card, 2026.03.03) 팩트 검증 기반 워크플로에선 이전 세대가 더 나은 상황입니다.
SimpleQA Verified(검증된 파라메트릭 지식)에서는 3.1 Flash-Lite가 43.3%로 2.5 Flash Dynamic의 28.1%보다 높습니다. 혼란스럽게 보이는데, 이걸 나란히 보면 이 모델의 특성이 드러납니다. 사전 학습 지식 기반 Q&A는 강하고, 실시간 검색과 외부 자료를 연결해 팩트를 확인하는 작업은 약합니다.
실무적으로 번역하면, 고객 지원 자동화처럼 학습된 지식 범위 안의 답을 빠르게 내는 건 잘 합니다. 반면 뉴스 서머리나 실시간 정보 기반 팩트체크 파이프라인엔 적합하지 않습니다. 지식 컷오프도 2025년 1월까지로 고정돼 있습니다. (출처: Google AI for Developers 공식 문서, 2026.03.18)
실사용 사례로 본 적합·부적합 조건
Google 공식 블로그에 올라온 사례 중에서 주목할 만한 수치만 추립니다. Whering(패션 앱)은 3.1 Flash-Lite를 아이템 태깅 파이프라인에 도입해 분류 일관성 100%를 달성했습니다. HubX는 루트 오케스트레이션 엔진으로 써서 응답 완료까지 10초 미만, 구조화 아웃풋 준수율 97%를 기록했습니다. (출처: Google 공식 블로그, 2026.03.03)
공통점이 보입니다. 모두 반복적이고 분류 중심인 작업입니다. 에이전트 라우팅, 콘텐츠 분류, 대량 번역처럼 지시를 일관되게 따르는 게 핵심인 태스크에서 성과가 나왔습니다.
✅ 이 조건이면 유리합니다
- 고빈도 분류, 태깅, 번역 — 아웃풋이 짧은 반복 태스크
- 멀티모달 입력(이미지·영상·오디오) 처리가 핵심인 파이프라인
- 에이전트 오케스트레이터 레이어 (Pro·Flash로 넘기기 전 단계)
- 구조화 JSON 출력이 필요한 데이터 추출
❌ 이 경우엔 다른 모델이 낫습니다
- 실시간 정보 기반 팩트체크, 뉴스 요약 (FACTS 점수 40.6%)
- 긴 출력이 필요한 창작·코딩 — 아웃풋 단가 $1.50에 주의
- SVG, 복잡한 3D 시뮬레이션 생성 (Pro 영역)
- 2026년 1월 이후 최신 정보가 필요한 태스크
경쟁 모델과의 직접 비교 수치
같은 티어 경쟁 모델과 핵심 수치를 나란히 놓겠습니다. 아래는 Google DeepMind Model Card 기준 수치입니다.
| 벤치마크 | 3.1 Flash-Lite | 2.5 Flash Dynamic | GPT-5 mini | Claude 4.5 Haiku | Grok 4.1 Fast |
|---|---|---|---|---|---|
| GPQA Diamond | 86.9% | 82.8% | 82.3% | 73.0% | 84.3% |
| MMMU-Pro | 76.8% | 66.7% | 74.1% | 58.0% | 63.0% |
| FACTS | 40.6% | 50.4% | 33.7% | 18.6% | 42.1% |
| MMMLU (다국어) | 88.9% | 86.6% | 84.9% | 83.0% | 86.8% |
| 출력 속도(tok/s) | 363 | 249 | 71 | 108 | 145 |
| 아웃풋 $/1M | $1.50 | $2.50 | $2.00 | $5.00 | $0.50 |
(출처: Google DeepMind Model Card, 2026.03.03 / 가격 정보: VentureBeat, 2026.03.03)
출력 속도는 이 티어에서 독보적입니다. GPT-5 mini의 5배, Claude 4.5 Haiku의 3.4배입니다. 실시간 응답이 생명인 서비스에서 속도 이점은 분명합니다.
단, Grok 4.1 Fast는 아웃풋 단가가 $0.50에 불과하고 GPQA Diamond에서도 84.3%로 근접합니다. 비용이 최우선 기준이라면 이쪽도 비교 대상에 넣어야 합니다. Grok 4.1 Fast의 약점은 MMMU-Pro(63.0%)라 멀티모달 중심 워크플로엔 3.1 Flash-Lite가 명확히 우세합니다.
Q&A
마치며
단, 아웃풋 단가 $1.50은 동급 최저가 모델 대비 3배입니다. 이 모델이 말이 많다는 Artificial Analysis 측정까지 고려하면, 긴 아웃풋 워크플로에선 비용이 빠르게 오를 수 있습니다. 팩트 검색 파이프라인엔 이전 세대 2.5 Flash Dynamic이 더 낫고요.
결국 “싸고 빠른 모델”이라는 설명은 절반은 맞고 절반은 조건부입니다. 분류·번역·에이전트 라우팅 중심이면 맞고, 긴 텍스트 생성이나 실시간 팩트 기반 태스크 중심이면 다시 비교가 필요합니다.
- Google 공식 블로그 — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/ - Google DeepMind Model Card — Gemini 3.1 Flash-Lite (2026.03.03)
https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/ - Google AI for Developers — Gemini 3.1 Flash-Lite Preview 공식 문서 (2026.03.18 기준)
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-lite-preview - Artificial Analysis — Gemini 3.1 Flash-Lite Preview Intelligence Index (2026.03.03)
https://artificialanalysis.ai/models/gemini-3-1-flash-lite-preview - VentureBeat — Google releases Gemini 3.1 Flash Lite at 1/8th the cost of Pro (2026.03.03)
https://venturebeat.com/technology/google-releases-gemini-3-1-flash-lite-at-1-8th-the-cost-of-pro
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격 정보는 2026년 3월 기준이며, 이후 구글 공식 페이지에서 변경될 수 있습니다. 본 포스팅은 특정 서비스 구매를 권유하지 않습니다.


댓글 남기기