gemini-3.1-flash-lite-preview
TECH
Gemini 3.1 Flash-Lite, 더 빠른데 왜 더 비쌀까요?
구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite. 속도는 2.5 Flash 대비 2.5배 빠르고 벤치마크 점수도 올랐는데, 막상 가격표를 열어보면 이전 Flash-Lite보다 비쌉니다. 출력 기준으로 3.8배, 벤치마크 점수를 만들어낸 Thinking 모드를 켜면 비용은 더 커집니다. 공식 문서와 실사용 데이터를 같이 놓고 정리했습니다.
빠르면 쌀 거라는 예상이 틀린 이유
(출처: Google Cloud Vertex AI 가격 페이지, 2026.03.20 기준)
이전 세대인 Gemini 2.5 Flash-Lite는 입력 $0.10, 출력 $0.40입니다. 출력 가격만 비교하면 3.8배 비쌉니다. “Flash-Lite = 저렴한 모델”이라는 공식이 세대가 바뀌면서 더 이상 성립하지 않습니다.
구글이 가격을 올린 이유는 공식적으로 밝히지 않았습니다. 다만 출시 발표문을 보면 “Gemini 3 시리즈 중 가장 빠르고 비용 효율적인 모델”이라고 소개하는데, 여기서 비용 효율성은 ‘절대 가격’이 아니라 ‘성능 대비 가격’입니다.
(출처: Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale, 2026.03.03)
공식 스펙 — 숫자로 보는 3.1 Flash-Lite
| 항목 | 수치 |
|---|---|
| 컨텍스트 윈도우 (입력) | 1,000,000 토큰 (약 100만 토큰) |
| 최대 출력 | 65,535 토큰 |
| GPQA Diamond (이유추론) | 86.9% |
| MMMU Pro (멀티모달) | 76.8% |
| Arena.ai Elo 점수 | 1432 |
| 첫 응답 속도 (vs 2.5 Flash) | 2.5배 빠름 |
| 출력 속도 향상 (vs 2.5 Flash) | 45% 향상 |
| 지식 컷오프 | 2025년 1월 |
| 입력 가격 (Vertex AI) | $0.25 / 1M 토큰 |
| 출력 가격 (Vertex AI) | $1.50 / 1M 토큰 |
(출처: Google Cloud Vertex AI 공식 문서, 2026.03.15 업데이트 / Google Blog 발표문, 2026.03.03)
속도 지표는 Artificial Analysis 벤치마크 기준이고, 비교 대상이 2.5 Flash-Lite가 아니라 2.5 Flash입니다. 구글이 비교 기준을 살짝 올려놓은 셈입니다.
Thinking Level, 이게 핵심입니다
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 벤치마크 수치는 Thinking High 기준이고, 실제 비용은 Minimal/Low 기준으로 써야 의미가 있습니다. 같은 모델인데 두 가지 다른 현실이 존재합니다.
3.1 Flash-Lite에는 Thinking Level 파라미터가 들어왔습니다. AI Studio와 Vertex AI에서 None / Minimal / Low / Medium / High 중 선택할 수 있고, 이 선택이 비용을 완전히 바꿔버립니다.
실사용자 테스트 결과를 직접 확인했습니다. AI Studio에서 동일한 프롬프트를 넣었을 때, 2.5 Flash-Lite는 출력 토큰 약 6,980개를 썼고, 3.1 Flash-Lite를 High로 실행하자 65,436 토큰까지 올라갔습니다. 최대 출력 한도(65,536 토큰)에 거의 닿는 수준입니다.
사고 토큰이 출력 토큰으로 과금되기 때문에, High 모드를 켜면 비용이 대폭 늘어납니다.
그리고 또 하나 — reasoning_effort=”high”로 설정해도 복잡한 지시를 따르지 않는 케이스가 보고됐습니다. 구글이 3월 3~9일 배포 시점에 확인한 버그로, High 모드에서 Finish_reason=STOP이 멀티스텝 도구 사용 중간에 조기 발생하는 문제입니다. 이유는 아직 공식적으로 답변이 나오지 않은 부분입니다.
(출처: Reddit r/Bard, 2026.03.09 사용자 보고)
Minimal 모드에서는 사고 과정을 거의 생략하고 2.5 Flash-Lite보다 토큰을 오히려 적게 씁니다. 속도가 필요한 고빈도 작업이라면 Minimal이 현실적인 선택입니다.
2.5 Flash-Lite와 직접 비교한 결과
💡 같은 Flash-Lite 라인인데 세대가 다르면 비용 구조 자체가 달라집니다. 단순히 더 새 모델이니 더 낫다고 보기 어렵습니다.
| 항목 | 2.5 Flash-Lite | 3.1 Flash-Lite |
|---|---|---|
| 입력 가격 / 1M 토큰 | $0.10 | $0.25 (2.5배↑) |
| 출력 가격 / 1M 토큰 | $0.40 | $1.50 (3.8배↑) |
| 컨텍스트 윈도우 | 1,048,576 토큰 | 1,000,000 토큰 |
| GPQA Diamond | 64.6% | 86.9% ✅ |
| Humanity’s Last Exam | 5.1% | 16.0% ✅ |
| FACTS Grounding | 84.1% ✅ | 40.6% |
| 라이선스 | CC BY 4.0 (오픈웨이트) | 독점 (클로즈드) |
| Thinking Level 지원 | 없음 | None~High |
(출처: llm-stats.com 비교 데이터, 2026.03.20 / Google Cloud 공식 가격 페이지)
비용 계산을 직접 해보면 이렇습니다. 입력 100만 토큰, 출력 30만 토큰짜리 작업을 1,000번 반복한다고 가정하면, 2.5 Flash-Lite는 입력 $100 + 출력 $120 = $220이고, 3.1 Flash-Lite는 입력 $250 + 출력 $450 = $700입니다. 같은 볼륨에서 3배 이상 차이가 납니다.
FACTS Grounding에서 역전당하는 상황이 생깁니다
💡 추론 벤치마크에서는 3.1 Flash-Lite가 앞서지만, 사실 기반 답변 정확도(FACTS Grounding)에서는 이전 세대가 두 배 이상 높습니다. 무엇을 만들 것인지에 따라 선택이 달라집니다.
GPQA Diamond(86.9% vs 64.6%), Humanity’s Last Exam(16.0% vs 5.1%), SimpleQA(43.3% vs 10.7%) — 이 세 가지는 3.1 Flash-Lite가 앞섭니다. 그런데 FACTS Grounding은 다릅니다. 2.5 Flash-Lite 84.1%, 3.1 Flash-Lite 40.6%로 구세대가 두 배 이상 높습니다.
(출처: llm-stats.com, 2026.03.20 기준)
FACTS Grounding은 근거 문서에 충실하게 답하는 능력을 측정합니다. 컨텍스트에 넣어준 문서를 얼마나 정확하게 참조해서 답변을 만드는지가 평가 포인트입니다. RAG 파이프라인, 문서 기반 Q&A, 법적·계약 문서 처리처럼 사실 정확도가 중요한 작업에서는 2.5 Flash-Lite가 여전히 유리합니다.
왜 이런 역전이 생겼는지 구글이 공식 답변을 내놓지 않은 부분입니다. Thinking 중심으로 최적화된 모델 구조가 Grounding 성능에 영향을 줬을 가능성이 있지만, 이 역시 추정입니다.
지금 쓸 만한 상황과 기다려야 할 상황
솔직히 말하면, 현재 시점에서 모든 케이스에 3.1 Flash-Lite를 권장하긴 어렵습니다. 이미 2.5 Flash-Lite로 운영 중인 대용량 배치 파이프라인이 있다면 전환 비용이 3배 이상 올라가므로, 성능 개선이 그 차이를 메워주는지 먼저 직접 테스트해봐야 합니다.
✅ 지금 시도해볼 만한 상황
- 실시간 응답이 필요한 서비스 — 첫 응답 2.5배 빠른 속도가 UX 차이를 만들 때
- 이미지·동영상 멀티모달 레이블링 — 멀티모달 정확도가 올라가서 실제 비용이 줄어드는 케이스
- 복잡한 추론이 필요한 중간 규모 배치 — Minimal/Low 사고 수준으로 2.5 Flash보다 싸게 쓸 수 있는 경우
- Gemini 3 Flash를 쓰고 있는데 비용이 부담될 때 — 3.1 Flash-Lite는 3 Flash보다 저렴하고 비슷한 성능
⚠️ 아직 기다리는 게 나은 상황
- 대용량 배치로 2.5 Flash-Lite를 쓰는 중 — 비용이 3.8배 차이나는 걸 정당화하려면 처리량이 훨씬 줄어야 함
- 문서 기반 RAG, 계약서 분석 — FACTS Grounding 40.6%는 실사용에 리스크 있음
- 멀티스텝 에이전트 워크플로 — High 모드 Finish_reason=STOP 버그 미해결 상태
- 프리뷰 단계가 불안한 프로덕션 — 아직 정식 출시 전이라 정책 변경 가능성 있음
Batch API를 쓰면 가격이 절반 수준으로 내려갑니다. Flex/Batch 기준으로 3.1 Flash-Lite 출력은 $0.75/1M 토큰입니다. 지연이 허용되는 작업이라면 Batch API와 Minimal 사고 수준을 조합하는 게 실질 비용을 가장 낮추는 방법입니다.
(출처: Google Cloud Vertex AI 가격 페이지, 2026.03.20 기준)
자주 묻는 질문
마치며
이 모델을 제대로 쓰려면 Thinking Level을 작업 성격에 맞게 조정해야 하고, FACTS Grounding이 중요한 작업에서는 2.5 Flash-Lite를 병행 검토해야 합니다. 속도와 가격 중 무엇이 더 중요한지를 먼저 정하고, 그다음에 모델을 선택하는 흐름이 맞습니다.
아직 프리뷰 단계라 추가 업데이트가 예정돼 있습니다. 특히 High 모드 버그가 수정되고 나면 실제 에이전트 활용 범위가 달라질 수 있어서, 지금은 테스트와 모니터링을 병행하는 것이 현실적입니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격 및 성능 수치는 2026년 3월 20일 기준이며, Google이 공식 발표 없이 업데이트할 수 있습니다. Gemini 3.1 Flash-Lite는 현재 프리뷰 상태로 정식 출시 전 변경 사항이 있을 수 있습니다.


댓글 남기기