2026.03.03 기준 / gemini-3.1-flash-lite-preview
Gemini 3.1 Flash-Lite, Lite인데 이게 더 빠릅니다
Gemini 3.1 Flash-Lite가 2026년 3월 3일 공개됐습니다. 이름에 ‘Lite’가 붙었는데 실제로는 기존 2.5 Flash보다 빠르고, 비용도 Gemini 3 Flash의 절반입니다. 그런데 막상 쓰면 안 되는 작업이 따로 있습니다. 공식 벤치마크 수치를 직접 뜯어봤습니다.
💰 입력 $0.25/1M tokens
⚠️ Computer Use 미지원
Gemini 3.1 Flash-Lite가 뭔가요? 한 줄 요약
결론부터 말씀드리면, Gemini 3.1 Flash-Lite는 Gemini 3 시리즈 중 가장 저렴하고 가장 빠른 모델입니다. 구글이 2026년 3월 3일 공식 출시했고, 지금은 개발자 미리보기(Preview) 단계입니다. 현재 Google AI Studio와 Vertex AI를 통해 사용할 수 있습니다. (출처: Google 공식 블로그, 2026.03.03)
모델 ID는 gemini-3.1-flash-lite-preview입니다. 지식 커트오프 날짜는 2025년 1월이고, 최대 입력 토큰은 1,048,576(약 100만), 최대 출력은 65,535 토큰입니다. 텍스트·이미지·오디오·영상·PDF 입력을 모두 지원합니다. (출처: Vertex AI 공식 문서, 2026.03.21 기준)
구글의 공식 표현은 “고빈도·대용량 워크로드용 최고 가성비 모델”입니다. 번역, 콘텐츠 분류, 라우팅, 구조화 추출 작업이 주요 타깃입니다.
Lite인데 2.5 Flash보다 빠른 이유가 있습니다
‘Lite’라고 하면 보통 성능을 낮춰서 가격을 줄인 모델을 떠올립니다. 그런데 3.1 Flash-Lite의 실측 속도를 보면 이 예상이 빗나갑니다. Artificial Analysis 벤치마크 기준으로 초당 출력 속도가 363 tokens/s입니다. 기존 Gemini 2.5 Flash의 249 tokens/s보다 약 45% 빠릅니다. (출처: Google 공식 블로그, 2026.03.03)
💡 공식 발표문과 Artificial Analysis 수치를 같이 놓고 보니 이런 차이가 보였습니다
구글은 “2.5 Flash보다 첫 응답 시간이 2.5배 빠르다”고 발표했는데, Artificial Analysis 실측에서는 출력 속도(tokens/s) 기준으로 45% 빠른 걸로 나옵니다. “2.5배 빠르다”는 건 첫 토큰까지의 지연시간(TTFT) 기준이고, “45% 빠르다”는 전체 출력 처리량 기준입니다. 같은 모델을 설명하는 수치인데 맥락이 다릅니다.
Arena.ai 리더보드 Elo 점수는 1432를 기록하고 있고, GPQA Diamond 86.9%, MMMU-Pro 76.8%를 달성했습니다. 구버전인 2.5 Flash를 넘는 수치입니다. Lite이지만 이전 세대 표준 Flash보다 잘한다는 뜻입니다.
가격을 숫자로 비교해봤습니다
세 모델의 공식 API 가격을 직접 비교하면 차이가 뚜렷합니다. 아래 표는 Gemini Developer API 공식 가격 페이지 기준입니다. (출처: Google AI for Developers 공식 가격 페이지)
| 모델 | 입력 ($/1M tokens) | 출력 ($/1M tokens) | 배치 입력 |
|---|---|---|---|
| 3.1 Flash-Lite | $0.25 | $1.50 | $0.125 |
| 3 Flash | $0.50 | $3.00 | $0.25 |
| 2.5 Flash | $0.30 | $2.50 | $0.15 |
※ 표 수치는 200,000 토큰 이하 기준 표준 PayGo 요금 / 2026.03.24 기준
3 Flash 대비 입력·출력 모두 딱 절반입니다. 월 1억 토큰을 처리하는 팀이라면 입력 기준으로만 $25를 절감할 수 있습니다. 이건 단순 계산이 아니라, 대용량 파이프라인을 운영하는 팀에 실질적인 비용 차이가 납니다.
배치 한도에서 생각지 못한 차이가 있습니다
가격보다 더 눈에 띄는 부분이 있습니다. 공식 레이트 리밋 페이지를 보면, 배치 API 큐 한도가 두 모델 사이에 크게 다릅니다.
📊 Tier 1 기준 공개 배치 토큰 한도 비교
Gemini 3.1 Flash-Lite Preview: 1,000만(10M) 토큰
Gemini 3 Flash Preview: 300만(3M) 토큰
(출처: Google 공식 Gemini API Rate Limits 페이지 기준, 2026.03 기준)
비동기 대량 처리 파이프라인을 운영할 때, 저렴한 모델이 오히려 큐 한도가 3배 이상 넓습니다. 흔히 “싼 게 비지떡”이라는 가정이 배치 처리에서는 역으로 작동하는 셈입니다. 번역·분류·태깅처럼 대량의 비동기 작업을 돌리는 팀이라면 Flash-Lite가 비용·처리량 두 마리 토끼를 동시에 잡습니다.
💡 가격표만 보면 놓치기 쉬운 부분입니다
배치 처리에서 Gemini 3.1 Flash-Lite는 무료 구간도 있고, 유료 전환 후에도 Gemini 3 Flash보다 배치 입력 가격이 절반입니다($0.125 vs $0.25). 비용 절감과 처리 용량 확대가 같은 방향을 가리키는 모델은 흔치 않습니다.
이 작업에는 쓰지 말 것 — 공식 수치가 갈리는 지점
속도·가격만 보면 “그냥 Flash-Lite 쓰면 되는 거 아닌가?”라는 생각이 들 수 있는데, 구체적인 벤치마크를 보면 갈리는 지점이 명확합니다. DeepMind 공식 모델 카드에서 겹치는 항목을 직접 비교했습니다.
| 벤치마크 | 3.1 Flash-Lite | 3 Flash |
|---|---|---|
| GPQA Diamond (과학 추론) | 86.9% | 90.4% |
| MMMU-Pro (멀티모달) | 76.8% | 81.2% |
| FACTS (팩트체크) | 40.6% | 61.9% |
| SimpleQA (사실 정확도) | 43.3% | 68.7% |
| MRCR v2 at 1M (초장문 맥락) | 12.3% | 22.1% |
| Computer Use | 미지원 | 지원 |
(출처: DeepMind 공식 모델 카드, 2026.03 기준 / 두 모델 평가 방법론이 달라 직접 비교에 주의 필요)
FACTS가 40.6%라는 건 팩트 기반 답변이 필요한 작업에서 거의 절반 가까운 오류가 날 수 있다는 뜻입니다. 정확한 사실 정보가 중요한 고객 대응이나 의료·법률 보조 도구에 Flash-Lite를 단독으로 쓰는 건 위험합니다. 그리고 Computer Use가 없다는 건 브라우저 자동화, UI 조작 에이전트 구현에 Flash-Lite를 쓸 수 없다는 뜻입니다.
실제로 어떤 작업에 써야 하나요
구글의 공식 포지셔닝과 벤치마크 수치를 교차해보면, Flash-Lite가 빛나는 구간과 3 Flash를 유지해야 하는 구간이 뚜렷하게 나뉩니다. 써봤더니 이게 핵심이었습니다.
✅ Flash-Lite가 유리한 작업
- 대용량 번역 파이프라인
- 콘텐츠 분류·태깅·모더레이션
- 구조화 데이터 추출
- 라우팅·분류기 레이어
- 실시간 응답이 필요한 가벼운 요청
- 비동기 배치 처리 파이프라인
❌ 3 Flash를 유지해야 하는 작업
- 코딩·에이전트 워크플로우
- 브라우저 UI 자동화 (Computer Use)
- 팩트 기반 정확도가 중요한 응답
- 100만 토큰 초장문 맥락 처리
- 복잡한 멀티모달 추론
초기 테스터들의 실제 사용 사례를 보면 흥미롭습니다. Latitude(AI 게임 스튜디오)는 “대형 모델 수준의 정밀도로 복잡한 입력을 처리한다”고 했고, Cartwheel은 멀티모달 라벨링 속도에 주목했고, Whering은 패션 아이템 태깅 일관성을 강조했습니다. 공통점은 모두 **고빈도·구조화 작업**입니다. (출처: Google 공식 블로그, 2026.03.03)
Q&A
마치며
Gemini 3.1 Flash-Lite는 ‘Lite’라는 이름이 가진 하위 모델 이미지와 달리, 실제로는 기존 2.5 Flash를 속도와 벤치마크 점수 모두에서 능가합니다. 그리고 Gemini 3 Flash 대비 절반 가격에 배치 한도는 3배 이상입니다. 대용량 처리 파이프라인에서는 솔직히 쓰지 않을 이유가 없습니다.
다만 팩트 정확도(FACTS 40.6%)와 초장문 맥락 처리(MRCR 1M 12.3%)에서 3 Flash와 격차가 분명합니다. Computer Use 미지원도 에이전트 개발자한테는 치명적입니다. 이 부분을 알고 쓰면 Flash-Lite는 꽤 강력한 도구인데, 모르고 쓰면 예상 못한 곳에서 막힙니다.
결국 Flash-Lite는 “3 Flash의 저가 버전”이 아니라 “다른 역할을 위한 별도 레인”입니다. 두 모델을 섞어서 쓰는 게 현재 시점에서 가장 방어적인 선택입니다. 단순 작업엔 Flash-Lite로 비용을 줄이고, 고부하 추론·에이전트 작업엔 3 Flash를 유지하는 구조가 실용적입니다.
본 포스팅 참고 자료
본 포스팅은 2026년 3월 25일 기준으로 공식 발표 자료와 벤치마크를 참고해 작성되었습니다.
수치 인용 시 출처 원문을 반드시 직접 확인하세요.







댓글 남기기