gemini-3.1-flash-lite-preview
TECH
Gemini 3.1 Flash-Lite, 공식 수치 11개로 확인했습니다
2026년 3월 3일 구글이 출시한 Gemini 3.1 Flash-Lite. “가성비 모델”이라는 수식어가 붙었지만, 공식 벤치마크를 들여다보면 생각과 다른 구석이 꽤 있습니다. 어떤 항목에서 상위 모델을 앞서고, 어떤 항목에서 조용히 밀리는지 수치로 정리했습니다.
Gemini 3.1 Flash-Lite가 뭔지 30초로 정리하면
Gemini 3 계열 중 가장 아래 가격, 가장 위 속도
Gemini 3.1 Flash-Lite는 2026년 3월 3일 Google DeepMind가 공식 출시한 Gemini 3 시리즈의 경량 모델입니다. 현재 공개 프리뷰 단계로 Google AI Studio와 Vertex AI에서 바로 쓸 수 있습니다. 공식 출시 블로그에 나온 포지셔닝은 “고용량 개발자 워크로드를 위한 가장 빠르고 가장 비용 효율적인 Gemini 3 모델”입니다. (출처: Google DeepMind 공식 블로그, 2026.03.03)
Gemini 3 Pro의 아키텍처를 그대로 씁니다
이 부분이 좀 의외였습니다. 공식 모델카드를 보면 “Gemini 3.1 Flash-Lite is based on Gemini 3 Pro”라고 직접 명시돼 있습니다. (출처: Google DeepMind 모델카드, 2026.03.03) 단순히 성능을 줄인 독립 모델이 아니라, Pro 아키텍처를 베이스로 경량화한 구조입니다. MoE(Mixture-of-Experts) 설계로 추론 요청마다 전체 파라미터가 아닌 일부만 활성화되기 때문에 속도와 비용이 드라마틱하게 낮아집니다.
컨텍스트 1M, 출력 64K — 스펙은 상위급
입력 컨텍스트는 1,048,576 토큰, 최대 출력은 65,535 토큰입니다. (출처: Google Cloud Vertex AI 공식 문서, 2026.03.21 업데이트) 경량 모델이라고 부르기가 머쓱한 스펙입니다. 동가격대 경쟁 모델인 Claude 4.5 Haiku가 200K 컨텍스트인 것과 비교하면, 긴 문서를 한 번에 처리해야 하는 워크로드에서는 구조적으로 유리합니다.
가성비 모델이 상위 모델을 이기는 이유
💡 공식 발표 벤치마크 표를 경쟁 모델과 나란히 놓고 보니 단순한 “저렴한 버전”이 아닌 구조가 보였습니다. Lite임에도 상위 세대 모델을 능가하는 항목이 구체적으로 있습니다.
GPQA Diamond 86.9% — Gemini 2.5 Flash보다 높습니다
대학원 수준 과학 추론 벤치마크인 GPQA Diamond에서 Gemini 3.1 Flash-Lite는 86.9%를 기록했습니다. 같은 공식 표에서 Gemini 2.5 Flash Dynamic은 82.8%, GPT-5 mini는 82.3%, Claude 4.5 Haiku Extended Thinking은 73.0%입니다. (출처: Google DeepMind 모델카드 벤치마크, 2026.03) Flash-Lite가 이름상 ‘아래’ 모델인데 ‘위’ 세대 모델들을 추론 정확도에서 앞서는 겁니다.
멀티모달 이해력 MMMU-Pro도 마찬가지
시각 추론 벤치마크 MMMU-Pro에서는 76.8%로 GPT-5 mini 74.1%, Gemini 2.5 Flash 66.7%를 모두 넘었습니다. (출처: Google DeepMind 모델카드 벤치마크, 2026.03) 멀티모달 이미지 분류나 차트 분석을 대량으로 돌려야 할 때, 더 비싼 모델 대신 Flash-Lite를 쓰는 게 성능·비용 양쪽에서 유리할 수 있습니다.
Video-MMMU 84.8%로 동급 최고
동영상 이해 벤치마크 Video-MMMU에서는 84.8%로 비교 대상 전 모델 중 가장 높았습니다. GPT-5 mini 82.5%, Gemini 2.5 Flash 79.2%, Grok 4.1 Fast 74.6%가 그 뒤입니다. (출처: Google DeepMind 모델카드 벤치마크, 2026.03) 동영상 콘텐츠 분석이나 멀티모달 파이프라인을 구성할 때 비용 대비 선택지가 달라집니다.
숫자로 보는 경쟁 모델 비교표
아래 표는 Google DeepMind 공식 모델카드(2026.03)에서 발췌한 수치입니다. ‘높을수록 좋은’ 항목과 ‘낮을수록 좋은’ 항목을 구분해서 봐야 합니다.
| 항목 | Flash-Lite | 2.5 Flash | GPT-5 mini | Claude 4.5 Haiku | Grok 4.1 Fast |
|---|---|---|---|---|---|
| 입력 $/ 1M↓ | $0.25 | $0.30 | $0.25 | $1.00 | $0.20 |
| 출력 $/ 1M↓ | $1.50 | $2.50 | $2.00 | $5.00 | $0.50 |
| 출력속도 t/s↑ | 363 | 249 | 71 | 108 | 145 |
| GPQA Diamond↑ | 86.9% | 82.8% | 82.3% | 73.0% | 84.3% |
| MMMU-Pro↑ | 76.8% | 66.7% | 74.1% | 58.0% | 63.0% |
| FACTS Benchmark↑ | 40.6% | 50.4% | 33.7% | 18.6% | 42.1% |
| 코딩 LiveCodeBench↑ | 72.0% | 62.6% | 80.4% | 53.2% | 76.5% |
| 컨텍스트 윈도우 | 1M | 1M | 400K | 200K | 2M |
출처: Google DeepMind 모델카드 벤치마크 (2026.03), intuitionlabs.ai 저가 LLM 비교 보고서 (2026.03.05)
표에서 눈에 띄는 건 출력 속도입니다. Flash-Lite 363 t/s는 GPT-5 mini(71 t/s)의 약 5.1배입니다. 실시간 스트리밍 응답이 필요한 서비스에서 이 차이는 사용자 경험에 직접 영향을 줍니다.
Thinking Level 조절 — 비용 최적화의 핵심
💡 공식 출시 블로그와 Business Analytics 분석을 나란히 보니 단일 모델 안에서 추론 깊이를 실시간으로 바꿀 수 있는 구조가 보였습니다. 기존 “저렴한 모델”에는 없던 제어 레이어입니다.
하나의 API 엔드포인트에서 4단계 추론 깊이를 선택할 수 있습니다
Gemini 3.1 Flash-Lite는 AI Studio와 Vertex AI 모두에서 thinking level을 minimal → low → medium → high 중 하나로 지정할 수 있습니다. (출처: Google 공식 블로그, 2026.03.03) 이 기능의 실질적 의미는, 쉬운 쿼리에는 minimal을 써서 추가 토큰 소비 없이 처리하고, 복잡한 쿼리에만 high를 써서 추론 품질을 높이는 선택적 운용이 가능하다는 겁니다.
thinking=”minimal” 설정으로 속도가 추가로 15~20% 개선된다는 초기 데이터
Business Analytics의 엔터프라이즈 분석 자료에 따르면, 배치 분류 작업에 thinking=”minimal”을 적용했을 때 초기 테스트에서 속도가 추가로 15~20% 개선됐습니다. (출처: Business Analytics Substack, 2026.03.20, 추정 수치 — 공식 GA 이전 프리뷰 결과) 대규모 콘텐츠 분류나 번역 파이프라인에 적용하면 이 수치는 실제 인프라 비용에 바로 영향을 줍니다.
기존 Flash-Lite와 결정적으로 달라진 점
이전 Gemini 2.5 Flash-Lite에도 Thinking 기능이 있었지만, 3.1 Flash-Lite는 thinking level을 API 파라미터 단위로 퍼 콜 제어할 수 있게 됐습니다. 라우팅 레이어를 별도로 구성하지 않아도 모델 하나로 경량·중간·심층 추론을 상황에 따라 전환할 수 있습니다. 복잡도에 따른 모델 분기를 했던 기존 파이프라인이라면 단일 모델로 단순화할 수 있는 여지가 생깁니다.
조용히 밀리는 항목, FACTS 점수가 말해주는 것
⚠️ 공식 모델카드에서 눈에 띄지 않게 묻혀있는 수치가 있습니다. FACTS 벤치마크에서는 Flash-Lite가 상위 모델에 뚜렷하게 밀립니다.
FACTS 40.6% — 사실적 근거가 있는 답변 생성은 약점
FACTS Benchmark Suite는 그라운딩, 파라메트릭 지식, 검색, 멀티모달 팩추얼리티를 종합적으로 평가하는 사실성 벤치마크입니다. 여기서 Gemini 3.1 Flash-Lite는 40.6%, Gemini 2.5 Flash Dynamic은 50.4%를 기록했습니다. (출처: Google DeepMind 모델카드 벤치마크, 2026.03) 무려 9.8%p 차이입니다. 사실적 근거를 기반으로 정확한 답변을 내야 하는 RAG 파이프라인이나 정보 검색 요약 서비스라면 이 차이가 체감으로 나타날 수 있습니다.
코딩에서는 GPT-5 mini와 Grok 4.1 Fast에 밀립니다
LiveCodeBench 코딩 벤치마크에서는 72.0%로 GPT-5 mini 80.4%, Grok 4.1 Fast 76.5%에 뒤처집니다. (출처: Google DeepMind 모델카드 벤치마크, 2026.03) 추론 능력은 뛰어나지만 코드 생성 품질은 동급 최고가 아닙니다. 코딩 에이전트나 자동화된 코드 리뷰 파이프라인을 구성한다면, Flash-Lite를 1차 모델로 쓰되 코드 검증 단계에서는 다른 모델을 병행하는 설계가 필요합니다.
1M 컨텍스트 롱 포인트 성능도 제한적
MRCR v2 롱 컨텍스트 벤치마크에서 128K 구간은 60.1%로 선두이지만, 1M 포인트 위스 구간은 12.3%까지 낮아집니다. (출처: Google DeepMind 모델카드 벤치마크, 2026.03) 같은 구간에서 Gemini 2.5 Flash는 21.0%를 기록합니다. 컨텍스트 윈도우가 1M이라고 해서 초장거리 문서 내 특정 포인트를 찾아내는 능력이 1M 전체에서 균일하지는 않습니다.
실제로 쓸 만한 시나리오와 피해야 할 경우
대량 번역, 콘텐츠 분류, 실시간 UI 생성에는 지금이 맞습니다
공식 블로그와 초기 사용 기업 후기(Latitude, Cartwheel, Whering)를 보면 고용량 번역, 콘텐츠 모더레이션, 이미지 태깅, 대시보드 생성, 시뮬레이션 생성에서 긍정적인 평가가 나왔습니다. (출처: Google DeepMind 공식 블로그, 2026.03.03) 특히 HubX는 “이전 모델 대비 처리 비용이 크게 감소했고, 응답 시간도 훨씬 빨라졌다”고 밝혔습니다. 하루 1000만 출력 토큰을 처리하는 파이프라인에서 Gemini 2.5 Flash 대비 연간 약 $3.65M이 절감되는 계산이 나옵니다. ($2.50 → $1.50 / 1M 토큰 × 10M 토큰/일 × 365일, 출처: Business Analytics Substack, 2026.03.20)
사실 검증 기반 RAG와 전문 코딩은 이 모델만으로는 무리입니다
앞서 확인한 FACTS 40.6%와 코딩 72.0% 수치가 말해주듯, 정확한 사실 근거 생성이나 복잡한 코드 생성이 핵심인 서비스에는 한계가 있습니다. RAG 구조에서 검색 결과를 기반으로 정확한 답변을 만들어야 한다면 2.5 Flash 또는 3.0 Flash를 유지하는 쪽이 안전합니다. 코딩 파이프라인도 마찬가지로 GPT-5 mini나 Grok 4.1 Fast가 코드 생성 품질 면에서 Flash-Lite를 앞섭니다.
프리뷰 단계이므로 프로덕션 SLA에는 아직 이릅니다
현재 모델 ID는 gemini-3.1-flash-lite-preview로, GA(정식 출시) 전 상태입니다. (출처: Google Cloud Vertex AI 문서, 2026.03.21) 프리뷰 모델은 Google이 별도 공지 없이 성능을 변경하거나 엔드포인트를 교체할 수 있습니다. Business Analytics 분석 리포트도 “비프로덕션 경로에서 먼저 파일럿을 진행하고 GA 출시 전에는 프로덕션 SLA에 적용하지 말 것”을 권고합니다. (출처: Business Analytics Substack, 2026.03.20)
Q&A 5가지
마치며
Gemini 3.1 Flash-Lite를 공식 수치와 함께 들여다본 소감은 “위치 설정이 예상보다 교묘하다”는 겁니다. 단순히 저렴한 버전이 아니라, 추론 능력과 멀티모달 이해력에서 상위 세대 모델을 앞서는 항목들이 분명히 있습니다. GPQA Diamond 86.9%, MMMU-Pro 76.8%, 출력 속도 363 t/s는 동가격대에서 의미 있는 수치입니다.
반면 FACTS 40.6%와 코딩 72.0%는 숨기지 않고 직시해야 할 약점입니다. 사실성 기반 서비스나 고품질 코드 생성이 핵심이라면 이 모델 하나로 커버하는 건 무리입니다. 용도에 맞는 라우팅 설계가 전제돼야 합니다.
Thinking Level 조절 기능은 앞으로 실사용 데이터가 더 쌓이면 평가가 달라질 수 있는 포인트입니다. 현재 프리뷰 단계이므로 비프로덕션 환경에서 실제 워크로드로 파일럿을 돌려보는 것이 가장 현실적인 접근입니다.
본 포스팅 참고 자료
- Google DeepMind 공식 블로그 — Gemini 3.1 Flash-Lite 출시 (2026.03.03)
- Google DeepMind 공식 모델카드 — 벤치마크·안전성 평가 (2026.03)
- Google Cloud Vertex AI 공식 문서 — 기술 사양 (2026.03.21 업데이트)
- Artificial Analysis — 독립 벤치마크 비교
- Business Analytics Substack — 추론 비용 40% 절감 분석 (2026.03.20)
- Intuition Labs — 저가 LLM API 가격·성능 비교 보고서 (2026.03.05)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash-Lite는 2026년 3월 23일 기준 공개 프리뷰 상태이며, Google이 별도 공지 없이 사양을 변경하거나 모델 엔드포인트를 교체할 수 있습니다. 본문 내 수치는 기재된 출처 기준이며, 실제 운영 환경에서는 달라질 수 있습니다.











댓글 남기기