gemini-3.1-flash-lite-preview
Google DeepMind 공식 발표
Gemini 3.1 Flash-Lite, 실제로 재봤습니다 — 가격 차이 3.75배
구글은 2026년 3월 3일, Gemini 3.1 Flash-Lite를 출시하면서 “가장 비용 효율적인 AI 모델”이라고 발표했습니다. 근데 막상 공식 가격표를 펼쳐보면 이야기가 완전히 달라집니다. 이전 세대인 2.5 Flash-Lite보다 입력 토큰 가격이 2.5배, 출력 토큰 가격이 3.75배 높습니다.
“비용 효율적”이라는 말이 어떻게 오해되는지
구글의 공식 발표문에는 이렇게 나옵니다. “Priced at just $0.25/1M input tokens and $1.50/1M output tokens, it delivers enhanced performance at a fraction of the cost of larger models.” (출처: Google Blog, 2026.03.03) 핵심은 “larger models 대비”라는 조건입니다. 더 큰 모델인 3.1 Flash나 3.1 Pro보다 싸다는 뜻이지, 이전 세대 Flash-Lite보다 싸다는 의미가 아닙니다.
이 문장 하나가 적지 않은 혼선을 만들고 있습니다. 발표 직후 커뮤니티에서 “드디어 저렴해진 Gemini”라는 반응이 나왔지만, 공식 가격표(Vertex AI Pricing, 2026.03.23 기준)와 나란히 놓으면 맥락이 완전히 달라집니다. Gemini 3.1 Flash-Lite는 2.5 Flash-Lite보다 비싼 후속 모델입니다.
솔직히 말하면, 발표 문구 자체가 거짓은 아닙니다. 3.1 Flash-Lite는 같은 성능대에 있는 다른 경쟁 모델(GPT-5 mini, Claude 4.5 Haiku)보다 빠르고 경쟁력 있는 가격입니다. 단지 “저렴해졌다”는 인상을 줄 수 있는 문구가 문제였을 뿐입니다.
공식 스펙 표 — 숫자로 직접 확인
Google DeepMind 공식 모델 카드(2026.03.03 발행)에 실린 경쟁 모델 비교표입니다. 공식 원문 그대로 정리했습니다.
| 모델 | 입력 $/1M | 출력 $/1M | 속도(T/s) | GPQA (%) | MMMU-Pro |
|---|---|---|---|---|---|
| 3.1 Flash-Lite High | $0.25 | $1.50 | 363 | 86.9% | 76.8% |
| 2.5 Flash Dynamic | $0.30 | $2.50 | 249 | 82.8% | 66.7% |
| 2.5 Flash-Lite Dynamic | $0.10 | $0.40 | 366 | 66.7% | 51.0% |
| GPT-5 mini High | $0.25 | $2.00 | 71 | 82.3% | 74.1% |
| Claude 4.5 Haiku ET | $1.00 | $5.00 | 108 | 73.0% | 58.0% |
| Grok 4.1 Fast | $0.20 | $0.50 | 145 | 84.3% | 63.0% |
이 표를 보면 “왜 구글이 비용 효율적이라고 했는지”가 이해됩니다. GPT-5 mini, Claude 4.5 Haiku와 비교하면 3.1 Flash-Lite는 훨씬 싸고 빠릅니다. 근데 2.5 Flash-Lite 행을 보면 이야기가 바뀝니다.
💡 공식 발표문과 실제 가격표를 같이 놓고 보니 이런 차이가 보였습니다. 구글이 비교 기준으로 삼은 건 “같은 세대 더 큰 모델”이지, “이전 세대 같은 등급 모델”이 아닙니다. 두 비교의 기준이 다릅니다.
2.5 Flash-Lite와 나란히 놓고 보면 보이는 것
Vertex AI 공식 가격표(2026.03.23 기준)에서 두 모델을 직접 꺼내 계산해봤습니다.
📐 토큰 100만 개 처리 시 비용 비교 계산
Gemini 3.1 Flash-Lite: 입력 $0.25 + 출력 $1.50 = 최대 $1.75
Gemini 2.5 Flash-Lite: 입력 $0.10 + 출력 $0.40 = 최대 $0.50
출력 중심 워크로드 기준: 3.1이 3.5배 비쌉니다.
입력 중심 워크로드 기준: 3.1이 2.5배 비쌉니다.
(출처: Vertex AI Generative AI Pricing, 2026.03.23 확인)
성능 차이도 같이 봐야 합니다. GPQA Diamond 기준 66.7%에서 86.9%로 올랐습니다. (출처: Google DeepMind 모델 카드, 2026.03.03) 점수만 보면 20포인트 넘는 차이입니다. 그런데 이 성능 향상이 내 워크로드에서 실제로 의미 있는 차이를 만드는지가 관건입니다.
단순한 요약이나 분류 작업이라면 66.7%든 86.9%든 결과물이 비슷할 가능성이 높습니다. 반면 복잡한 추론이 필요한 번역이나 구조화 데이터 추출이라면 차이가 납니다. 비용을 3.5배 더 내는 게 맞는지 판단하려면 내 작업의 성격을 먼저 확인해야 합니다.
속도가 “45% 빠르다”는 말이 반만 맞는 이유
구글 공식 블로그에는 이렇게 나옵니다. “2.5X faster Time to First Answer Token and 45% increase in output speed.” (출처: Google Blog, 2026.03.03) 비교 대상은 2.5 Flash입니다. 2.5 Flash-Lite가 아닙니다.
💡 공식 발표 숫자와 실제 벤치마크 기준이 다른 모델임을 확인하고 나서 보이는 것이 있습니다. Gemini 3.1 Flash-Lite의 출력 속도는 363 tokens/s, Gemini 2.5 Flash-Lite는 366 tokens/s입니다. (출처: Google DeepMind 공식 모델 카드, 2026.03.03) 사실상 같습니다.
“45% 빠르다”는 수치는 맞습니다. 다만 비교 대상이 2.5 Flash(249 T/s)이기 때문입니다. 363 ÷ 249 ≈ 1.46, 약 46% 빠릅니다. 이 숫자가 나올 수 있는 건 2.5 Flash가 2.5 Flash-Lite보다 느리기 때문입니다. 빠른 모델과 비교했을 때 “더 빠르다”는 말은 사실이지만, 이미 빠른 Flash-Lite급 모델과 비교하면 차이가 거의 없습니다.
속도 때문에 3.1 Flash-Lite로 넘어가려 했다면, 공식 모델 카드의 363 vs 366이라는 숫자를 먼저 확인해보는 게 맞습니다. 속도 면에서는 이전 세대 Flash-Lite와 실질적인 차이가 없습니다.
Thinking 레벨이 비용을 어디까지 끌어올리나
3.1 Flash-Lite는 Thinking(사고) 레벨을 Minimal, Low, High로 설정할 수 있습니다. 공식 벤치마크 수치는 대부분 “High” 기준입니다. (출처: Google DeepMind 공식 모델 카드, 2026.03.03) 이 부분이 가격 계산을 복잡하게 만듭니다.
⚠️ 실사용자 실측 데이터 (Reddit r/Bard, 2026.03.03)
동일한 프롬프트를 2.5 Flash-Lite와 3.1 Flash-Lite High로 각각 처리했을 때, 출력 토큰 수가 6,980개 vs 65,436개로 나왔습니다. 거의 9.4배 차이입니다. 3.1 Flash-Lite는 Thinking 토큰도 출력 토큰 요금에 포함되므로, 실제 청구 금액은 벤치마크 숫자에서 예상하는 것보다 훨씬 올라갈 수 있습니다.
이걸 계산식으로 풀어보면 이렇습니다.
2.5 Flash-Lite, 6,980 토큰 → 6,980 ÷ 1,000,000 × $0.40 = $0.0028
3.1 Flash-Lite High, 65,436 토큰 → 65,436 ÷ 1,000,000 × $1.50 = $0.098
같은 작업에서 출력 비용만 35배 차이가 났습니다. Thinking을 “High”로 놓았을 때의 실측값입니다.
반면 Thinking을 “Minimal”로 설정하면 3.1 Flash-Lite도 2.5 Flash-Lite와 비슷한 토큰을 사용합니다. 고성능 벤치마크 점수를 그대로 적용하려면 High가 필요하지만, 그러면 비용도 같이 올라갑니다. 이 점은 공식 블로그에 별도로 안내되어 있지 않습니다.
어떤 상황에서 3.1 Flash-Lite를 골라야 하나
공식 발표문과 실제 사용 사례를 교차해보면, 3.1 Flash-Lite가 진짜 효과를 내는 구간이 보입니다. 아래는 용도별로 정리한 판단 기준입니다.
✅ 3.1 Flash-Lite가 의미 있는 상황
- 번역 파이프라인 — 2.5 Flash-Lite의 품질이 재처리 비용을 만들고 있을 때
- 구조화 데이터 추출 — 오류율이 높아 다운스트림 비용이 쌓일 때
- 이미지·비디오 분류 대량 처리 — MMMU-Pro 51% → 76.8%의 차이가 실제로 중요한 경우
- 다국어 QA — MMMLU 84.5% → 88.9%의 정확도 차이가 사용자 경험에 직결될 때
⚠️ 2.5 Flash-Lite를 유지하는 게 나은 상황
- 단순 요약·컨텍스트 압축 — 품질 향상이 사용자에게 체감되지 않는 경우
- 저가 분류·라벨링 — 비용이 최우선인 대량 배치 작업
- 실험·프로토타이핑 — 2.5 Flash-Lite의 무료 표준 티어가 아직 살아 있는 경우
- 비용 예측이 중요한 프로덕션 — Preview 상태인 3.1의 레이트리밋 불확실성이 리스크가 될 때
공식 문서(ai.google.dev/gemini-api/docs/deprecations, 2026.03.20 기준)에는 2.5 Flash-Lite의 안정 버전 종료 예정일이 2026년 7월 22일로 나와 있습니다. 아직 시간이 있습니다. 다만 구버전 프리뷰 ID(`gemini-2.5-flash-lite-preview-09-2025`)를 쓰고 있다면 종료 예정일이 2026년 3월 31일로 훨씬 빠릅니다. 지금 확인해두는 게 맞습니다.
지금 2.5 Flash-Lite를 쓰고 있다면 체크할 것
3.1 Flash-Lite는 Preview 상태입니다(모델 ID: gemini-3.1-flash-lite-preview). 2026년 3월 기준으로 GA(정식 출시)가 아닙니다. 그 말은 레이트리밋이 변동될 수 있고, 무료 표준 티어가 공식 가격표에 아직 없다는 뜻입니다. (출처: Vertex AI 공식 문서, 2026.03.21 업데이트)
💡 마이그레이션 타임라인 — 공식 발표 기준 정리
gemini-2.5-flash-lite-preview-09-2025→ 종료 예정 2026.03.31 (당장 이동 필요)gemini-2.5-flash-lite(안정 버전) → 종료 예정 2026.07.22gemini-3.1-flash-lite-preview→ 공식 후속 권장 모델, GA 전환 일정 미발표
(출처: ai.google.dev/gemini-api/docs/deprecations, 2026.03.20 기준)
이걸 보고 “지금 당장 전부 3.1 Flash-Lite로 바꿔야 하나”라고 생각할 수 있는데, 그건 아닙니다. 안정 버전 사용자라면 7월 22일까지 여유가 있습니다. 그 시간 동안 내 워크로드 중 어느 부분이 더 비싼 모델을 쓸 만한 가치가 있는지 테스트해보는 게 더 좋은 접근입니다.
기억해야 할 건, Flash-Lite는 여전히 Flash-Lite라는 점입니다. 3.1이 더 똑똑해졌다고 해서 무거운 추론이나 코드 생성의 주력 모델로 쓰기엔 한계가 있습니다. 그 용도라면 Flash나 Pro 라인을 별도로 검토해야 합니다.
자주 묻는 것들 — Q&A
마치며 — 총평
근데 이전 세대인 2.5 Flash-Lite 사용자 입장에서 보면 얘기가 다릅니다. 단순 업그레이드가 아니라 비용이 2.5배에서 3.75배 오른 후속 모델입니다. 속도는 사실상 같고, 성능 향상은 분명히 있지만, 그 향상이 내 작업에서 실제 가치를 만드는지 확인하지 않고 넘어가면 비용만 늘어납니다.
Thinking 레벨 설정에 따라 비용이 크게 달라진다는 것도 실제로 써보기 전까지 잘 안 알려진 부분입니다. 공식 벤치마크가 High 기준이라는 점, 그리고 High에서는 토큰 소모가 급증할 수 있다는 점은 API를 연동하기 전에 반드시 테스트해봐야 합니다.
📚 본 포스팅 참고 자료
- Google Blog — Gemini 3.1 Flash-Lite 공식 출시 발표 (blog.google)
- Google DeepMind — Gemini 3.1 Flash-Lite 공식 모델 카드 (deepmind.google)
- Vertex AI — Generative AI 공식 가격표 (cloud.google.com)
- Vertex AI — Gemini 3.1 Flash-Lite 공식 스펙 문서 (docs.cloud.google.com)
- Google Gemini API — 공식 Deprecations 페이지 (ai.google.dev/gemini-api/docs/deprecations)
본 포스팅은 2026년 3월 23일 기준으로 작성되었습니다. Gemini 3.1 Flash-Lite는 현재 Preview 상태이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 Google 공식 문서에서 직접 확인하세요.











댓글 남기기