Preview 상태
모델명: gemini-3.1-flash-lite-preview
Gemini 3.1 Flash-Lite, 속도 직접 재봤습니다
— 2.5 Flash와 차이 수치로
2026년 3월 3일, 구글이 조용히 Gemini 3.1 Flash-Lite를 공개했습니다. 발표 시점도, 한국어 자료도 거의 없었지만 — 직접 공식 문서와 벤치마크를 뜯어봤더니 생각과 꽤 달랐습니다. “Lite”라고 해서 느릴 거라 예상했는데, 속도 수치가 거꾸로였습니다.
“Lite”인데 왜 빠를까 — 속도 수치를 직접 확인했습니다
“Lite”라는 이름 때문에 2.5 Flash보다 느리고 더 저렴한 버전이라고 생각하기 쉽습니다. 막상 수치를 보면 반대입니다.
💡 공식 발표문과 Artificial Analysis 벤치마크를 같이 놓고 보니 이런 차이가 보였습니다.
(출처: Artificial Analysis Benchmark, Google DeepMind 공식 발표, 2026.03.03)
구글이 발표한 수치에 따르면, “첫 답변 토큰까지의 시간(Time to First Answer Token)”도 2.5 Flash 대비 2.5배 빨라졌습니다. 이 차이는 단순히 가벼운 모델이라서가 아닙니다. 구글은 아키텍처 자체를 “고빈도 워크로드 최적화” 방향으로 재설계했다고 발표 자료에서 직접 밝혔습니다. (출처: Google Blog, 2026.03.03) 응답이 빠를수록 사용자 이탈이 줄어든다는 뜻이고, API 기반 서비스라면 처리 비용도 함께 낮아집니다.
대신 모델 크기 자체가 작기 때문에, 복잡한 장문 분석이나 멀티스텝 에이전트 작업에서는 상위 모델과 차이가 납니다. 이 부분은 뒤에서 따로 짚겠습니다.
Thinking Level — 있는데 주의가 필요한 이유
Gemini 3.1 Flash-Lite에는 “Thinking Level”이 기본 포함됩니다. 추론 강도를 낮음·중간·높음으로 조절할 수 있는 기능인데, Lite 모델에 이 옵션이 들어간 건 Gemini 시리즈에서 처음입니다. (출처: Google DeepMind 공식 모델 카드, 2026.03.03)
💡 Thinking Level은 추가 비용 없이 AI Studio와 Vertex AI에서 바로 설정할 수 있습니다. 단, thinking_off 완전 비활성화는 지원하지 않습니다.
(출처: Google AI for Developers – Gemini Thinking 공식 문서)
실제 사용에서 확인된 한계
그런데 reasoning_effort="high"로 설정해도, 멀티스텝 툴 사용(예: 화면 스크롤 반복, 에이전트 루프)에서 중간에 STOP이 조기 발생하는 현상이 실사용자들로부터 보고됐습니다. 2026년 3월 초 Reddit(r/Bard) 등지에서 확인된 사례입니다.
원인은 이 모델이 “충분한 정보가 있다고 판단되면 루프를 종료”하는 방식으로 학습됐기 때문으로 보입니다. 고비용·고빈도 워크로드 최적화의 부산물입니다. 구글이 이 부분에 대한 공식 답변을 내놓지 않은 상태입니다. 단순 번역·분류·콘텐츠 모더레이션처럼 단일 응답으로 끝나는 작업에서는 문제가 없지만, 복수 단계가 필요한 에이전트 워크플로에는 지금 당장 쓰기에 조심스러운 부분입니다.
경쟁 모델과 가격 직접 비교 — Claude·GPT와 얼마나 다를까
Gemini 3.1 Flash-Lite는 출력 토큰 기준으로 Claude 4.5 Haiku보다 3.3배 저렴합니다. API를 직접 쓰는 개발자라면 이 차이가 월 비용에 곧바로 반영됩니다.
| 모델 | 입력 ($/1M) | 출력 ($/1M) | 출력 속도 (t/s) |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 363 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 249 |
| GPT-5 mini | $0.25 | $2.00 | 71 |
| Claude 4.5 Haiku | $1.00 | $5.00 | 108 |
| Grok 4.1 Fast | $0.20 | $0.50 | 145 |
(출처: Google DeepMind 공식 벤치마크 비교표, 2026.03.03 / Artificial Analysis 기준)
속도 면에서는 GPT-5 mini(71 t/s) 대비 5배 이상 빠릅니다. Claude 4.5 Haiku(108 t/s)와 비교해도 3.4배 차이입니다. 같은 입력 가격($0.25/1M)이지만 응답 속도가 크게 다른 셈입니다. 단, Grok 4.1 Fast는 출력 $0.50/1M으로 가격이 더 낮은데, 멀티모달·장문 처리 성능에서는 Gemini 3.1 Flash-Lite가 앞서는 항목이 더 많습니다.
💡 월 1억 토큰을 출력하는 서비스라면, Claude 4.5 Haiku 대비 월 약 35만 원이 절감됩니다.
(Haiku $500 → Flash-Lite $150, 환율 1,400원 기준 추정)
성능 벤치마크 — 상위 세대 Flash도 이긴 항목이 있습니다
이름이 “Flash-Lite”라서 2.5 Flash보다 성능이 낮을 거라고 생각하기 쉬운데, 실제 벤치마크를 보면 그렇지 않은 항목이 있습니다.
| 벤치마크 | Flash-Lite | 2.5 Flash | GPT-5 mini | Claude 4.5 Haiku |
|---|---|---|---|---|
| GPQA Diamond (과학 추론) | 86.9% | 82.8% | 82.3% | 73.0% |
| MMMU-Pro (멀티모달) | 76.8% | 66.7% | 74.1% | 58.0% |
| Video-MMMU (영상 이해) | 84.8% | 79.2% | 82.5% | — |
| MMMLU (다국어 Q&A) | 88.9% | 86.6% | 84.9% | 83.0% |
| LiveCodeBench (코드 생성) | 72.0% | 62.6% | 80.4% | 53.2% |
| FACTS Benchmark (팩트 정확도) | 40.6% | 50.4% | 33.7% | 18.6% |
(출처: Google DeepMind 공식 벤치마크 비교표, 2026.03.03)
GPQA Diamond(과학 추론)에서 86.9%를 기록하며 2.5 Flash(82.8%)와 GPT-5 mini(82.3%)를 동시에 넘겼습니다. 다국어 Q&A(MMMLU)에서도 전체 1위를 기록했는데, 한국어 포함 다국어 서비스에서 특히 유리한 수치입니다.
반면 코드 생성(LiveCodeBench)에서는 GPT-5 mini(80.4%)에 뒤지고, 팩트 정확도(FACTS)에서는 2.5 Flash에 못 미칩니다. 실시간 팩트 검색이 중요한 서비스라면 Grounding 기능이 안정적인 2.5 Flash를 선택하는 게 더 맞는 상황도 있습니다.
실제 쓰기 좋은 작업 vs 조심해야 할 상황
구글은 Gemini 3.1 Flash-Lite를 “대용량 번역, 콘텐츠 모더레이션, UI 생성, 시뮬레이션”에 적합하다고 직접 명시했습니다. 실제 조기 접근 기업들의 사례도 이 패턴과 일치합니다.
- 대량 텍스트 번역 (MMMLU 88.9% 1위)
- 이미지/영상 분류 및 레이블링
- 콘텐츠 모더레이션 (단일 응답 기반)
- UI 와이어프레임·대시보드 생성
- 구조화된 데이터 추출·분류
- 멀티스텝 에이전트 루프 (조기 STOP 버그)
- 실시간 팩트 검색 의존 서비스
- 복잡한 코드 생성 (GPT-5 mini가 우세)
- 장문 컨텍스트 1M 활용 (Grounding 제한)
- 프로덕션 배포 (Preview 상태)
실제 사용자 후기를 보면, 단일 응답 분류 작업에서는 “이전 2.5 Pro 수준의 결과를 20배 빠른 속도로 얻었다”는 평도 있고 (출처: Reddit r/Bard, danson729, 2026.03.09), 반면 에이전트 워크플로에서 “중간에 멈추는 문제로 Gemini 3 Flash로 다시 돌아갔다”는 사례도 공존합니다. 쓰임새에 따라 결과가 갈리는 모델입니다.
AI Studio에서 지금 바로 쓸 수 있는 방법
Gemini 3.1 Flash-Lite는 현재 Preview 상태로, Google AI Studio에서 별도 결제 없이 바로 테스트할 수 있습니다. 기업 환경에서는 Vertex AI를 통해 접근 가능하며, 모델 ID는 gemini-3.1-flash-lite-preview입니다. (출처: Google Vertex AI 공식 문서, 2026.03.03)
스펙 요약
한 가지 특이한 점은 지식 컷오프가 2025년 1월로 고정돼 있어, 그 이후 발생한 사건에 대한 파라메트릭 지식이 없습니다. 최신 뉴스나 최근 이슈를 다뤄야 한다면 Google 검색 Grounding 기능을 함께 활성화해야 합니다. 구글이 이유를 별도로 밝히지 않은 부분입니다.
Q&A
마치며
솔직히 처음엔 “Lite니까 한 단계 낮은 모델이겠다”고 생각했습니다. 막상 수치를 보면 이야기가 다릅니다. 속도는 2.5 Flash보다 빠르고, 과학 추론·멀티모달·다국어 성능에서 상위 세대 모델을 앞서는 항목도 있습니다.
하지만 멀티스텝 에이전트 작업에서의 조기 종료 문제, Preview 상태, 지식 컷오프 2025년 1월이라는 한계도 분명합니다. “이 모든 걸 대체할 최고의 Lite 모델”이라기보다는 — 번역·분류·UI 생성처럼 단일 응답 기반의 고빈도 작업에서 가격 대비 성능이 뛰어난 선택지라고 보는 게 맞습니다.
API 기반으로 서비스를 운영하거나 만들 계획이라면, AI Studio에서 무료로 테스트할 수 있는 지금 한 번 직접 돌려보는 게 제일 빠릅니다.
본 포스팅 참고 자료
- Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
- Google DeepMind — Gemini Flash-Lite 공식 모델 카드 및 벤치마크 비교표 (2026.03.03)
- Google Vertex AI 공식 문서 — Gemini 3.1 Flash-Lite 기술 명세 (2026.03.03)
- Artificial Analysis — Gemini 3.1 Flash-Lite Preview 속도·비용 벤치마크 (2026.03)
- Google AI for Developers — Gemini Thinking 공식 문서
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash-Lite는 현재 Preview 상태이며, 정식 출시 시점에 가격·성능·기능이 달라질 수 있습니다. 본문 내 수치는 Google DeepMind 공식 발표(2026.03.03) 및 Artificial Analysis 기준이며, 이후 업데이트가 있을 수 있습니다.







댓글 남기기