Preview 상태
gemini-3.1-flash-lite-preview 기준
Gemini 3.1 Flash-Lite, 수치 3개로 직접 확인했습니다
“싸고 빠른 모델”이라는 홍보 문구, 공식 발표문과 실측 데이터를 같이 놓고 보니 생각보다 복잡한 그림이 나왔습니다. 결론부터 말씀드리면 — 입력 가격은 맞는데, 출력 가격과 코딩 성능은 다른 이야기입니다.
Gemini 3.1 Flash-Lite가 뭐길래 화제인가
2026년 3월 3일, Google이 Gemini 3.1 Flash-Lite를 발표했습니다. 이름만 보면 “Flash보다 더 가벼운 버전” 정도로 읽히는데, 실제로는 Gemini 3 시리즈 안에서 비용 효율과 속도를 최우선으로 설계한 API 전용 모델입니다. (출처: Google DeepMind 공식 모델 페이지, 2026.03.03)
포지셔닝이 꽤 명확합니다. 번역, 콘텐츠 분류, 대량 데이터 추출처럼 하루에도 수백만 건씩 돌아가는 반복 작업을 타깃으로 만들었습니다. Gemini API(Google AI Studio)와 Vertex AI에서 Preview 상태로 제공 중이고, 현재 모델 코드는 gemini-3.1-flash-lite-preview입니다. (출처: Google AI Developer Docs, 2026.03.18 업데이트)
1M 토큰 입력 컨텍스트를 지원하고, 텍스트·이미지·비디오·오디오·PDF를 입력으로 받습니다. 출력은 텍스트만 가능합니다. Live API와 Computer Use는 지원하지 않습니다. — 멀티모달 입력은 되지만, 실시간 대화나 PC 조작 같은 고급 기능은 상위 모델의 영역입니다.
입력 가격은 저렴하지만, 출력 가격이 다릅니다
💡 공식 발표문과 제3자 실측 데이터를 함께 놓고 보니, 같은 “가성비 모델” 안에서도 출력 단가 격차가 꽤 크게 벌어졌습니다.
Gemini 3.1 Flash-Lite의 공식 가격은 입력 토큰 $0.25/1M, 출력 토큰 $1.50/1M입니다. (출처: Google 공식 블로그 & Vertex AI 문서, 2026.03.03) 입력 가격만 놓고 보면 GPT-5 mini($0.25/M)와 동일하고, Gemini 3 Flash Preview($0.50/M)의 절반입니다. — 대량 처리 워크로드에서 입력 비용이 절반으로 줄어든다는 뜻입니다.
문제는 출력 토큰 가격입니다. 같은 시기에 출시된 경쟁 모델들과 직접 비교하면 그림이 달라집니다.
| 모델 | 입력 $/1M | 출력 $/1M | 출처 |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | Google AI |
| Grok 4.1 Fast | $0.20 | $0.50 | xAI |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | Google AI |
| Qwen 3 Turbo | $0.05 | $0.20 | Alibaba Cloud |
| GPT-5 mini | $0.25 | $2.00 | OpenAI |
Artificial Analysis 실측 평가에서도 Gemini 3.1 Flash-Lite의 출력 토큰 가격이 “비교 모델 평균($0.90/M)을 웃도는 수준”으로 평가됐습니다. (출처: Artificial Analysis 벤치마크 페이지, 2026.03) — 입력만 따지면 저렴하지만, 출력이 긴 작업이라면 단순 계산이 달라집니다.
또 Artificial Analysis가 실제로 Intelligence Index 평가를 돌렸을 때 Flash-Lite가 생성한 토큰 수는 5,300만 개로, 같은 평가 기준 평균(2,000만 개)의 2.65배였습니다. 더 많이 말한다는 뜻 — 출력 토큰이 많이 나올수록 $1.50/M 단가의 무게가 실제 청구서에서 더 크게 느껴집니다.
속도 363 t/s — 이 수치가 실제로 의미하는 것
Google 공식 발표문에서 Flash-Lite의 출력 속도로 내세운 수치는 363 tokens/sec입니다. (출처: Google 공식 블로그, 2026.03.03) 이 속도가 얼마나 빠른 건지 비교 기준이 없으면 체감이 안 됩니다.
같은 벤치마크 표에 나온 경쟁 모델을 기준으로 보면 — Claude 4.5 Haiku 108 t/s, GPT-5 mini 71 t/s, Grok 4.1 Fast 145 t/s입니다. Flash-Lite는 GPT-5 mini 대비 약 5.1배 빠르고, Claude Haiku 대비 3.4배 빠릅니다. — 실시간 스트리밍 응답이 필요한 서비스에서 “끊김 없이 흐르는 텍스트” 경험을 만드는 데 이 격차가 실질적으로 체감됩니다.
다만 이 수치는 Artificial Analysis 실측에서 233 t/s로 나왔습니다. (출처: Artificial Analysis 모델 페이지, 2026.03) 공식 발표의 363과 차이가 있는데, 공식 발표는 이상적 조건에서 측정한 수치이고 실측은 일반적인 API 호출 환경 기준입니다. 그럼에도 233 t/s는 경쟁 모델 평균을 크게 웃도는 수준입니다. — 빠른 건 사실이지만, 발표 수치 그대로 기대하면 차이를 느낄 수 있습니다.
속도의 실질적 가치는 Latitude 사례에서도 확인됩니다. Latitude의 AI 팀은 Flash-Lite 도입 후 “이전 모델 대비 성공률 20% 향상, 추론 시간 60% 단축”을 보고했습니다. (출처: Google 공식 블로그 인용 사례, 2026.03.03) — 단순 속도 수치가 아니라, 실제 프로덕션 파이프라인에서 사용자 경험으로 이어진 사례입니다.
코딩에 쓰면 안 되는 이유가 벤치마크에 있습니다
💡 구글이 “코딩 등 복잡한 작업에도 쓸 수 있다”고 홍보하는데, 같은 발표 표 안에 코딩 성능이 뒤처지는 수치가 함께 있습니다.
Google은 Flash-Lite를 소개하면서 LiveCodeBench 점수 72.0%를 강조했습니다. (출처: Google DeepMind 공식 벤치마크 표, 2026.03.03) 이 수치만 보면 나쁘지 않습니다. 문제는 같은 표에 있는 GPT-5 mini가 80.4%라는 점입니다.
두 모델의 입력 가격은 동일하게 $0.25/M입니다. 코드 생성 성능에서 8.4%p 차이가 나는데 가격이 같다는 것 — 코딩 위주 사용이라면 GPT-5 mini 쪽이 수치상으로 유리합니다. 실제로 Reddit에서 Flash-Lite를 코딩에 써본 사용자들은 “기본적인 앱도 못 만든다”, “2.5 Flash가 훨씬 나았는데 없애버렸다”는 반응이 나왔습니다. (출처: r/GoogleAIStudio 커뮤니티, 2026.03.05)
공식 문서에서도 Flash-Lite의 권장 사용 시나리오로 번역, 음성 전사, 데이터 추출, 문서 요약, 경량 에이전트 라우팅을 제시합니다. (출처: Google AI Developer Docs, 2026.03.18) 코딩 생성은 예시에 없습니다. — 같은 가격이면 코딩은 GPT-5 mini, 멀티모달 처리와 대량 분류는 Flash-Lite가 더 맞는 선택입니다.
Thinking Levels — 소형 모델이 추론 모드를 가졌을 때
Flash-Lite에서 가장 눈길을 끄는 기능 중 하나는 Thinking Levels(사고 수준 조절)입니다. 간단한 분류 작업에서는 thinking을 끄거나 낮추고, 복잡한 대시보드 생성에서는 높이는 식으로 모델 내부 추론량을 API 파라미터로 제어할 수 있습니다. (출처: Google 공식 블로그 & Google AI Developer Docs, 2026.03.03)
공식 문서의 코드 예시를 직접 보면, thinking_level="high"로 설정하면 더 깊은 추론 후 응답을 내놓고, thinking_level="none"으로 설정하면 즉각 응답합니다. 이 기능이 사실상 Flash-Lite를 “경우에 따라 추론 모델처럼 쓸 수 있는 소형 모델”로 만들어 줍니다. — 비용 대비 유연성이 늘어난 구조입니다.
다만 thinking 레벨을 높일수록 출력 토큰이 더 많이 나올 가능성이 있습니다. Artificial Analysis 실측에서 이미 Flash-Lite가 평균 대비 2.65배 많은 토큰을 생성한다고 확인된 점을 감안하면 — thinking high 설정 시 출력 비용은 직접 테스트로 사전에 측정해보는 것이 안전합니다.
이 모델이 실제로 유리한 상황 3가지
💡 벤치마크와 실제 도입 사례를 함께 놓고 보니, Flash-Lite가 빛나는 구간이 꽤 좁고 명확하게 정해집니다.
① 멀티모달 대량 분류 — 이미지·영상이 섞인 파이프라인
MMMU-Pro(멀티모달 이해·추론) 76.8%, Video-MMMU(영상 지식 습득) 84.8%로 같은 가격대 경쟁 모델을 앞섭니다. (출처: Google DeepMind 공식 벤치마크 표, 2026.03.03) 패션 플랫폼 Whering은 Flash-Lite 도입 후 상품 태깅 일관성 100%를 달성했다고 밝혔습니다. — 이미지가 대량으로 들어오는 분류 파이프라인에 맞습니다.
② 다국어 처리 — MMMLU 88.9%로 최상위권
MMMLU(다국어 Q&A) 88.9%로 비교 표 내 최고 점수를 기록했습니다. (출처: Google DeepMind 공식 벤치마크 표, 2026.03.03) 글로벌 플랫폼에서 여러 언어로 된 고객 메시지를 실시간 번역·분류하는 용도에 잘 맞습니다. — 다국어 처리량이 많을수록 입력 비용 절감 효과가 커집니다.
③ 모델 라우터 — Flash-Lite가 자기 자신을 분류기로 쓸 때
공식 문서에서 소개하는 패턴 중 하나가 “Flash-Lite를 쿼리 복잡도 분류기로 써서 Flash나 Pro로 라우팅”하는 구조입니다. (출처: Google AI Developer Docs, 2026.03.18) 오픈소스 Gemini CLI도 이 방식으로 Flash-Lite를 라우터로 씁니다. — HubX 사례에서 94% 인텐트 라우팅 정확도와 10초 이내 응답이 확인됐습니다. (출처: Google 공식 블로그 인용 사례, 2026.03.03)
Q&A
마치며
Gemini 3.1 Flash-Lite를 수치로 따져보면 세 가지 결론이 나옵니다. 속도는 경쟁 모델 최상위 수준이고, 멀티모달 처리와 다국어 분류에서 같은 가격대를 앞서고, 코딩은 같은 입력 가격의 GPT-5 mini보다 뒤집니다. 그리고 출력 토큰 가격은 “저렴한 모델”이라는 이름에서 기대하는 것보다 비쌉니다.
솔직히 말하면, 이 모델이 빛나는 구간은 꽤 뚜렷합니다. 하루에 수백만 개의 이미지·텍스트·음성 데이터를 분류하거나 번역하는 파이프라인, 혹은 더 무거운 모델로 보낼지 말지를 판단하는 라우터 역할에서는 잘 맞습니다. 반대로 코딩 생성이나 출력이 긴 창작 작업에는 애초에 설계 목적이 다릅니다.
Preview 딱지가 붙어 있는 만큼, GA 전환 시점에 가격이나 기능이 달라질 수 있습니다. 지금 테스트하면서 자기 워크로드에 맞는지 직접 확인해보는 게 가장 정확한 방법입니다.
본 포스팅 참고 자료
- Google 공식 블로그 — Gemini 3.1 Flash-Lite: Built for intelligence at scale (blog.google)
- Google DeepMind — Gemini Flash-Lite 모델 페이지 (deepmind.google)
- Google AI Developer Docs — Gemini 3.1 Flash-Lite Preview 공식 문서 (ai.google.dev)
- Artificial Analysis — Gemini 3.1 Flash-Lite Preview 실측 벤치마크 (artificialanalysis.ai)
- VentureBeat — Google releases Gemini 3.1 Flash Lite at 1/8th the cost of Pro (venturebeat.com)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash-Lite는 현재 Preview 상태이므로 GA 전환 시 가격, 기능, 성능 수치가 달라질 수 있습니다. 본문 내 모든 수치는 2026.03.28 기준 공식 문서 및 제3자 실측 데이터를 기반으로 작성되었습니다.











댓글 남기기