gemini-3.1-flash-lite-preview
공개 프리뷰 단계
Gemini 3.1 Flash-Lite,
8배 싸다는 게 사실일까요?
구글이 “Pro의 8분의 1 가격”이라고 내세운 이 모델, 가격만 보고 덥석 골랐다가 오히려 비용이 늘어나는 경우가 있습니다. 공식 수치를 직접 뜯어봤습니다.
실제로 ‘8분의 1’이 맞는 조건과 안 맞는 조건
Gemini 3.1 Flash-Lite는 2026년 3월 3일 공개됐습니다. 구글 공식 블로그는 “Gemini 3.1 Pro 대비 8분의 1 가격”이라고 직접 표현했는데, 이 수치는 팩트입니다. 입력 가격 기준 Flash-Lite는 $0.25/1M 토큰이고, Gemini 3.1 Pro는 $2.00/1M 토큰(200k 이하 프롬프트)이니 딱 8분의 1이 맞습니다. (출처: Google AI Pricing 공식 페이지, 2026.03.25 기준)
문제는 출력 쪽에서 생깁니다. Pro의 출력 단가는 $12.00/1M 토큰인데, Flash-Lite는 $1.50/1M 토큰입니다. 8분의 1처럼 보이지만, Artificial Analysis가 실측한 결과 Flash-Lite의 출력 토큰 수가 동급 모델 평균의 약 2.6배에 달합니다. 1,000회 요청 기준으로 응답이 더 장황하게 나온다면, 단가는 낮아도 실제 청구 비용은 올라갑니다. 단가 절감이 출력량 증가로 상쇄되는 구조입니다.
💡 공식 가격표와 실측 출력량을 같이 놓고 보니 이런 차이가 보였습니다. 단가 비교만으로는 실제 비용을 판단할 수 없습니다. 배치 처리(Batch API)를 활용하면 입력 $0.125, 출력 $0.75로 절반 더 절약되는 만큼, 대화형 실시간 요청보다 배치 워크플로에 쓸 때 진짜 절감 효과가 납니다.
정리하면 “8분의 1 가격”은 입력 토큰 단가 기준이며, 실제 총비용은 응답 길이에 따라 크게 달라집니다. 장문의 응답이 필요한 워크플로에서는 비용 계산을 직접 해보고 결정하는 게 안전합니다.
1M 토큰 컨텍스트 창을 믿었다가 만나는 벽
Gemini 3.1 Flash-Lite의 공식 컨텍스트 창은 1,048,576 토큰, 즉 약 100만 토큰입니다. 동급 경쟁 모델 중 GPT-5 mini가 약 400K, Claude 4.5 Haiku가 200K인 것과 비교하면 압도적으로 큰 수치입니다. 그래서 “긴 문서를 넣기 좋겠다”고 판단하는 건 자연스러운 생각입니다.
그런데 공식 DeepMind 모델 카드에 나온 벤치마크 수치를 보면 얘기가 달라집니다. 장문 컨텍스트 검색 성능 지표인 MRCR v2에서 128K 구간은 60.1%를 기록했지만, 1M 구간에서는 12.3%로 급락합니다. 같은 모델, 같은 창이지만 얼마나 길게 채우느냐에 따라 정확도가 이렇게 차이 납니다. (출처: DeepMind Gemini 3.1 Flash-Lite 모델 카드, 2026.03)
💡 컨텍스트 창 크기와 실제 검색 정확도는 별개의 문제입니다. 100만 토큰짜리 법률 문서 전체를 넣고 특정 조항을 찾으려 한다면, 10분의 1만 검색이 제대로 되는 셈입니다.
반면 128K 이내로 쓸 때는 MRCR v2 60.1%로 동급 최상위권(GPT-5 mini 52.5%, Claude 4.5 Haiku 35.3%)을 기록합니다. 100만 토큰 창이 필요한 건 아니고, 100만 토큰까지 지원은 한다는 뜻임을 구분할 필요가 있습니다.
경쟁 모델과 벤치마크 비교 — 공식 수치 기준
DeepMind 모델 카드(2026.03)에 공개된 공식 비교표를 그대로 정리했습니다.
| 벤치마크 | Flash-Lite | GPT-5 mini | Claude 4.5 Haiku | Grok 4.1 Fast |
|---|---|---|---|---|
| 입력 단가 ($/1M) | $0.25 | $0.25 | $1.00 | $0.20 |
| 출력 단가 ($/1M) | $1.50 | $2.00 | $5.00 | $0.50 |
| 출력 속도 (t/s) | 363 | 71 | 108 | 145 |
| GPQA Diamond | 86.9% | 82.3% | 73.0% | 84.3% |
| MMMLU (다국어) | 88.9% | 84.9% | 83.0% | 86.8% |
| SimpleQA (사실 정확도) | 43.3% | 9.5% | 5.5% | 19.5% |
| LiveCodeBench (코딩) | 72.0% | 80.4% | 53.2% | 76.5% |
| MRCR v2 (128K) | 60.1% | 52.5% | 35.3% | 54.6% |
| MRCR v2 (1M) | 12.3% | 미지원 | 미지원 | 6.1% |
출처: DeepMind Gemini 3.1 Flash-Lite 모델 카드 (2026.03)
벤치마크만 보면 이 모델은 꽤 강합니다. GPQA Diamond 86.9%는 동급 최고이고, 다국어 이해(MMMLU 88.9%)와 멀티모달 이해(MMMU-Pro 76.8%)도 GPT-5 mini보다 위입니다. 코딩만은 GPT-5 mini(80.4%)에 밀립니다.
주목할 점은 SimpleQA 43.3%입니다. 경쟁 모델 대비 가장 높은 수치인데, 이는 팩트 기반 특정 질문에서 할루시네이션이 비교적 많다는 신호로 읽힙니다. 맥락 추론과 사실 정확도는 다른 차원이라는 걸 보여주는 숫자입니다.
thinking level을 올려도 안 해결되는 게 있습니다
Gemini 3.1 Flash-Lite는 thinking level을 minimal, low, medium, high 네 단계로 조절할 수 있습니다. 이걸 높이면 더 깊이 추론하니까 멀티스텝 에이전트 작업에도 쓸 수 있지 않을까 기대하게 됩니다.
그런데 실사용자 경험을 보면 다른 얘기가 나옵니다. Reddit(r/Bard, 2026.03.09) 스레드에서 한 개발자는 웹 에이전트 작업에 이 모델을 투입한 뒤, reasoning_effort="high"를 적용해도 멀티스텝 지시를 끝까지 이행하지 않는 현상을 확인했습니다. Gemini 스스로도 그 이유를 이렇게 설명했다고 합니다. “이 모델은 정보 충분성 검사에서 이미 충분하다고 판단하면 나머지 지시를 생략한다.” 쉽게 말하면, 모델이 답을 찾았다고 스스로 결론 내리는 순간 남은 절차를 건너뜁니다.
💡 thinking level이 높아진다는 건 “내용을 더 깊이 생각한다”는 뜻이지, “지시를 더 충실히 따른다”는 뜻이 아닙니다. 절차 준수가 핵심인 에이전트 작업에선 이 차이가 결과를 갈라놓습니다.
2026년 3월 4일 전후로 “Finish_reason=STOP이 멀티스텝 도구 호출 중간에 발생한다”는 버그 보고도 있었습니다. 아직 GA 전 공개 프리뷰 단계이므로 이런 불안정 요소는 공식적으로도 인정된 리스크입니다. 구글은 프리뷰 모델에 대해 SLA를 보장하지 않는다고 공식 문서에 명시하고 있습니다.
무료로 쓸 수 있는 조건과 실제 Rate Limit
Google AI Studio에서 Gemini 3.1 Flash-Lite는 무료 티어로 사용 가능합니다. 입력·출력 모두 무료 티어에서 사용할 수 있도록 공식 가격 페이지에 명시돼 있습니다. (출처: Google AI Pricing 공식 페이지) 단, 무료 티어에서는 콘텐츠가 구글 제품 개선에 활용될 수 있다는 약관이 적용됩니다.
Rate Limit은 공개 프리뷰 상태라 정식 모델보다 더 제한적입니다. Vertex AI 공식 문서에는 “프리뷰 모델은 더 제한적인 rate limit이 적용된다”고 명시돼 있습니다. 실제 개발자들이 보고하는 Free Tier RPD(일일 요청 수) 한도는 공식 발표 전까지는 AI Studio에서 직접 확인하는 게 정확합니다. 구글이 공식 수치를 아직 Rate Limit 페이지에 별도로 공개하지 않은 상태입니다.
💡 무료로 쓸 수 있다는 점은 프로토타입과 내부 도구 테스트에 큰 장점입니다. 다만 프로덕션에 올리려면 GA(정식 출시) 전환을 기다리거나 SLA가 보장되는 Vertex AI 유료 티어를 활용하는 게 안전합니다.
Batch API를 쓰면 가격이 절반으로 떨어집니다. 입력 $0.125/1M, 출력 $0.75/1M이 됩니다. 실시간 응답이 필요 없는 문서 분류·번역·레이블링 파이프라인이라면 배치 방식이 훨씬 합리적입니다.
이 모델이 진짜 유리한 사용 시나리오
솔직히 말하면 이 모델은 쓰는 사람을 고르는 편입니다. 공식 초기 도입 사례를 보면 패턴이 명확합니다. AI 게임 플랫폼 Latitude는 Flash-Lite 전환 후 작업 성공률이 20% 높아지고 추론 속도가 60% 빨라졌다고 밝혔습니다. 패션 AI 앱 Whering은 의류 태그 분류 정확도 100%를 달성했다고 했고, HubX는 구조화된 출력 준수율 97%를 기록했습니다. 공통점은 모두 분류, 레이블링, 구조화 출력에 집중된 태스크라는 점입니다. (출처: Google 공식 블로그, 2026.03.03)
반면 이 모델이 맞지 않는 경우도 명확합니다. TTFT(첫 번째 토큰까지의 응답 시간)가 Artificial Analysis 기준 평균 6.74초입니다. 동급 모델 중간값인 1.74초와 비교하면 약 4배 느립니다. 채팅처럼 빠르게 첫 응답이 나와야 하는 인터페이스에서는 체감 속도가 느립니다. 처리량(초당 토큰 수)은 빠르지만, 첫 토큰 대기는 느린 구조입니다.
- 대량 문서 분류·레이블링
- 다국어 콘텐츠 번역 파이프라인
- RAG 랭킹 및 관련성 스코어링
- 오디오 전사 + 요약
- 배치 구조화 출력
- 실시간 대화 인터페이스
- 멀티스텝 에이전트 워크플로
- 특정 사실 검색 (할루시네이션 주의)
- 코딩 (GPT-5 mini가 우위)
- SLA 보장이 필요한 프로덕션
독립적인 평가기관 Artificial Analysis는 이 모델에 인텔리전스 인덱스 34점(132개 모델 중 21위)을 부여했고, 해당 가격대 모델의 중간값(19점)을 크게 상회한다고 밝혔습니다. 가격 대비 성능이라는 기준 하나로는 현재 동급 최강이라는 평가가 맞습니다.
Q&A
마치며
Gemini 3.1 Flash-Lite가 “Pro의 8분의 1 가격”이라는 건 입력 단가 기준으로는 맞는 말입니다. 그런데 실제 청구 비용을 결정하는 건 출력 토큰 수이고, 이 모델은 출력이 길어지는 경향이 있습니다. 100만 토큰 컨텍스트 창도 전체 구간에서 신뢰할 수 있는 건 128K 이내까지입니다.
반대로 이 모델이 진짜 빛을 발하는 구간도 명확합니다. 대량 번역, 분류, 레이블링, 구조화 출력 파이프라인에서 363 t/s 속도와 낮은 단가는 실질적인 경쟁력입니다. GPQA Diamond 86.9%, MMMLU 88.9% 같은 벤치마크 수치는 이 가격대 모델 중 최상위입니다.
아직 공개 프리뷰라 SLA도 없고 rate limit도 유동적입니다. 프로토타입이나 내부 도구라면 지금 당장 무료로 테스트해볼 가치가 있고, GA 전환 이후를 기다렸다가 프로덕션에 투입하는 게 현실적인 순서입니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash-Lite는 현재 공개 프리뷰 단계이며, GA 전환 전까지 스펙·가격·rate limit이 예고 없이 변경될 수 있습니다. 최신 정보는 Google AI 공식 문서에서 확인하시기 바랍니다.











댓글 남기기