Gemini 3.1 Flash-Lite, 4가지 수치로 직접 따져봤습니다
입력 토큰 100만 개당 $0.25. 가격만 보면 솔깃합니다. 그런데 공식 모델 카드를 꺼내 놓고 경쟁 모델과 숫자를 나란히 세워 보면 생각보다 복잡한 그림이 나옵니다. 빠른 핵심부터 짚겠습니다.
GPQA Diamond 86.9%
컨텍스트 1M 토큰
Thinking 지원
Flash-Lite가 뭔지 — 먼저 구조부터
2026년 3월 3일, 구글이 Gemini 3 시리즈의 막내 격인 Gemini 3.1 Flash-Lite를 공식 공개했습니다. (출처: Google 공식 블로그, 2026.03.03) 이름에 “Lite”가 붙어 있어서 최소 스펙 모델처럼 들리지만, 공식 모델 카드에는 “Gemini 3 Pro의 아키텍처를 기반으로 구축되었다”고 명시되어 있습니다.
💡 공식 모델 카드와 실제 배포 흐름을 같이 놓고 보니 이런 구조가 보였습니다
Flash-Lite는 “Pro 아키텍처 → Flash → Flash-Lite” 순으로 증류(distillation)된 모델이 아니라, Pro의 구조를 그대로 가져오되 고빈도·저지연 워크로드에 최적화한 별도 최적화 모델입니다. 단순히 기능을 빼낸 ‘다운그레이드 버전’이 아닌 셈입니다. (출처: Google DeepMind 모델 카드, 2026.03.03)
현재 Google AI Studio와 Vertex AI에서 프리뷰(Preview) 상태로 제공 중입니다. 아직 정식 안정(Stable) 버전이 아니라는 점이 나중에 중요해집니다 — 이건 뒤에서 따로 설명합니다.
속도와 가격, 숫자로 보면 이렇습니다
공식 발표 수치와 DeepMind 모델 카드 벤치마크(2026.03.03)를 기준으로 직접 정리한 표입니다.
| 모델 | 입력 가격 ($/1M) |
출력 가격 ($/1M) |
출력 속도 (tokens/s) |
GPQA Diamond |
|---|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 363 | 86.9% |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 366 | 66.7% |
| GPT-5 mini (High) | $0.25 | $2.00 | 71 | 82.3% |
| Claude 4.5 Haiku (ET) | $1.00 | $5.00 | 108 | 73.0% |
| Grok 4.1 Fast | $0.20 | $0.50 | 145 | 84.3% |
출처: Google DeepMind Gemini 3.1 Flash-Lite 모델 카드, 2026.03.03 (deepmind.google/models/model-cards/gemini-3-1-flash-lite)
여기서 눈에 띄는 건 출력 속도입니다. Flash-Lite는 초당 363 토큰을 출력하는데, 이는 GPT-5 mini(71 tokens/s)보다 약 5배 빠릅니다. 실시간 챗봇이나 스트리밍 응답이 중요한 서비스라면 이 차이가 체감으로 바로 옵니다.
반면 출력 가격에서는 이야기가 달라집니다. Gemini 3.1 Flash-Lite의 출력 가격은 $1.50/1M으로, 같은 입력 가격($0.25)인 GPT-5 mini의 $2.00/1M보다는 낮지만, Grok 4.1 Fast($0.50/1M)나 Gemini 2.5 Flash-Lite($0.40/1M)와 비교하면 3~4배 비쌉니다. 출력이 긴 작업일수록 선택 기준이 달라집니다.
“Lite니까 성능이 낮겠지”가 틀린 이유
솔직히 처음엔 저도 “Lite면 그냥 가벼운 거 아닌가”라고 생각했습니다. 막상 공식 벤치마크 수치를 꺼내 보면 다릅니다. GPQA Diamond 86.9% — 대학원 수준의 과학 문제를 푸는 벤치마크입니다.
💡 벤치마크 수치를 경쟁 모델과 나란히 놓고 보니 이런 역전이 보였습니다
Claude 4.5 Haiku Extended Thinking의 GPQA Diamond 점수는 73.0%, GPT-5 mini High는 82.3%입니다. Flash-Lite의 86.9%는 이 둘보다 높습니다. “Lite”라는 이름이 붙은 모델이 같은 등급 경쟁 모델들을 추론 벤치마크에서 앞서는 겁니다. (출처: Google DeepMind 모델 카드, 2026.03.03)
다국어 성능(MMMLU)도 88.9%로 경쟁 모델 중 가장 높습니다. 한국어 포함 다국어 처리 파이프라인에서 이 수치는 의미 있습니다. 단, 코드 생성(LiveCodeBench) 72.0%에서는 GPT-5 mini(80.4%)에 밀립니다. 복잡한 코딩 작업이라면 이 격차를 무시하기 어렵습니다.
Video-MMMU(영상 이해) 84.8%도 경쟁 모델 최상위입니다. 영상·멀티모달 파이프라인에 적합한 이유가 수치로 나옵니다. 단순히 “저렴한 모델”이 아니라, 특정 작업에서는 더 비싼 모델보다 성능이 높다는 게 핵심입니다.
Thinking 모드를 HIGH로 켜면 달라지는 것
Flash-Lite에는 Thinking 기능이 탑재되어 있습니다. 공식 개발자 문서(ai.google.dev, 2026.03.18)에는 “thinking_level”을 none / low / medium / high로 설정할 수 있다고 나옵니다. 이 부분을 잘 이해하지 못하면 요금 폭탄으로 이어질 수 있습니다.
⚠️ 실사용에서 확인된 주의 포인트
Reddit 커뮤니티(r/Bard, r/GeminiAI, 2026.03.03~05) 사용자들 사이에서 Thinking HIGH 설정 시 토큰 소모가 급격히 올라간다는 보고가 나왔습니다. 구글이 공식 답변을 내놓지 않은 부분이지만, 내부 추론 토큰이 출력 토큰에 합산되는 구조라면 $1.50/1M이라는 기본 단가가 그대로 적용됩니다.
직접 계산해 보면 이렇습니다. 10만 토큰짜리 복잡한 요청에 Thinking HIGH를 적용하면 내부 추론 토큰이 최대 수만 개 추가될 수 있습니다. 출력 토큰 3만 개 × $1.50/1M = $0.045. 작게 보이지만 하루 1만 건 처리하면 월 $13.5이 추론 토큰에만 추가됩니다. 고빈도 파이프라인에서 Thinking을 DEFAULT로 켜 두면 예상보다 비용이 나옵니다.
결론부터 말하면, 번역·분류·태깅처럼 단순 반복 작업은 Thinking 없이, 복잡한 추론이 필요한 요청만 선택적으로 Thinking HIGH를 쓰는 게 맞습니다. 공식 개발자 가이드도 “특정 프롬프트에 할당된 컴퓨팅 자원을 동적으로 조절할 수 있게 설계했다”고 설명합니다.
Free Tier로 쓸 수 있는지 — 현실적인 한도
구글 공식 API 한도 문서(ai.google.dev/gemini-api/docs/rate-limits)를 확인하면 Gemini 3.1 Flash-Lite는 아직 Preview 모델이라 Free Tier 한도가 “Limited”로만 표시되어 있습니다. 안정 모델(2.5 Flash-Lite: 15 RPM / 1,000 RPD)처럼 명확한 숫자가 공개되지 않았습니다.
💡 무료로 쓸 수 있다는 말과 무료 한도가 공개됐다는 말은 다릅니다
2025년 12월, 구글이 예고 없이 Free Tier 한도를 50~92% 삭감했고 수천 명의 개발자 프로젝트가 중단됐습니다. (출처: aifreeapi.com, 2026.03.17) Preview 상태 모델은 그보다 더 유동적입니다. 프로덕션 워크로드에 Flash-Lite Preview를 무료 한도만 믿고 올리는 건 위험합니다.
Preview 모델에는 또 다른 제약이 있습니다. 공식 문서 기준으로 컨텍스트 캐싱(Context Caching)과 Batch API는 지원되지만, Live API와 Computer Use는 미지원입니다. (출처: ai.google.dev, 2026.03.18) 안정 버전 전환 시 기능 목록이 달라질 수 있으므로 릴리스 노트를 주기적으로 확인해야 합니다.
Knowledge Cutoff은 2025년 1월입니다. (출처: Vertex AI 공식 문서, 2026.03.26) 최신 사건이나 실시간 데이터가 필요한 작업에는 Search Grounding(구글 검색 연동)을 함께 켜야 합니다. Search Grounding은 지원되지만 추가 요금이 발생합니다.
GPT-5 mini와 비교했을 때 놓치기 쉬운 지점
이 두 모델은 입력 가격이 $0.25/1M으로 동일합니다. 그래서 “성능이 비슷하면 Flash-Lite가 낫다”는 판단이 빠르게 나오는데, 막상 살펴보면 그렇지 않은 경우가 있습니다.
💡 입력 가격이 같다고 해서 전체 비용이 같다고 볼 수 없습니다
출력 가격: Flash-Lite $1.50 vs GPT-5 mini $2.00. Flash-Lite가 25% 저렴합니다. 그러나 코드 생성 작업(LiveCodeBench)에서 GPT-5 mini가 80.4% vs Flash-Lite 72.0%로 격차가 납니다. 코드를 많이 생성하는 파이프라인이라면 품질 재작업 비용을 포함한 실질 비용 비교가 필요합니다. (출처: Google DeepMind 모델 카드, 2026.03.03)
속도 면에서는 차이가 극명합니다. Flash-Lite 363 tokens/s vs GPT-5 mini 71 tokens/s — 약 5배 차이입니다. 실시간 스트리밍이 필요한 앱이라면 이 차이가 사용자 경험에 직접 영향을 줍니다.
정리하면 이렇습니다. 번역·분류·다국어 처리·멀티모달(영상·이미지)·실시간 응답이 중심이라면 Flash-Lite가 유리합니다. 복잡한 코드 생성·소프트웨어 디버깅이 주력 작업이라면 GPT-5 mini를 같이 테스트해 보는 게 낫습니다. 어느 쪽이 무조건 우위라는 결론보다, 작업 유형별로 나눠 쓰는 구조가 현실적입니다.
Q&A
마치며
Gemini 3.1 Flash-Lite는 이름만 보고 판단하면 손해입니다. GPQA Diamond 86.9%, 출력 속도 363 tokens/s — 이 두 수치는 같은 가격대 경쟁 모델과 비교했을 때 분명한 강점입니다. 특히 다국어 처리, 영상 이해, 실시간 응답이 중요한 파이프라인에서는 충분히 유력한 선택지입니다.
다만 코드 생성은 GPT-5 mini에 뒤처지고, 출력 가격은 Grok 4.1 Fast나 Gemini 2.5 Flash-Lite보다 비쌉니다. Thinking HIGH 모드를 무분별하게 켜면 비용이 예상보다 늘어납니다. Free Tier 한도도 아직 “Limited”로만 표시되어 있어, 프로덕션 전에 반드시 유량 테스트를 돌려봐야 합니다.
기대했던 것과 달랐던 건 1M 컨텍스트 실성능입니다. 스펙 수치는 100만 토큰이지만 1M 범위 벤치마크에서 12.3%는 사실상 쓰기 어렵다는 신호입니다. 128K 이내에서 활용 설계를 잡는 게 현실적입니다.
Preview라는 딱지가 떼이고 Stable로 전환되면 지금보다 명확한 Free Tier 한도와 추가 기능이 붙을 가능성이 높습니다. 지금은 파이프라인 검토와 테스트 단계로 활용하고, 안정화 후 본격 전환을 고려하는 흐름이 가장 무난합니다.
📎 본 포스팅 참고 자료
- Google 공식 블로그 — Gemini 3.1 Flash-Lite 출시 발표 (2026.03.03)
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/ - Google DeepMind — Gemini 3.1 Flash-Lite 모델 카드 (2026.03.03)
https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/ - Google AI for Developers — Gemini 3.1 Flash-Lite 개발자 가이드 (2026.03.18)
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-lite-preview - Google for Developers Korea 블로그 — 3월 첫째 주 업데이트 (2026.03.06)
https://developers-kr.googleblog.com/2026/03/weeklyupdate-week1.html
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.03.26 기준 공식 문서를 바탕으로 작성되었습니다. 가격·스펙 변동 시 Google AI 공식 채널을 우선 확인하세요.

댓글 남기기