Gemini 3.1 Flash-Lite, 싸다더니 2.5배 비쌉니다
구글이 3월 3일 공개한 Gemini 3.1 Flash-Lite. “역대급 가성비”라는 수식어가 붙었지만, 막상 API 요금표를 열어보면 생각이 달라집니다. 전작인 Gemini 2.5 Flash-Lite보다 입력 토큰 가격이 2.5배 높습니다. 이 글은 그 이유와 실제로 비용이 낮아지는 조건, 그리고 무료 한도에서 막히는 지점까지 공식 수치로 직접 계산해봤습니다.
2.5 Flash 대비 속도 2.5배
GPQA Diamond 86.9%
GA 미출시, Preview 상태
Gemini 3.1 Flash-Lite, 지금 당장 써야 할까?
구글은 2026년 3월 3일(현지시간) Gemini 3.1 Flash-Lite를 공식 발표했습니다. 공개 채널에서 강조된 문구는 하나였습니다. “Gemini 3 시리즈 중 가장 빠르고 가장 비용 효율적인 모델.” 이 문장을 그대로 받아들이면 당연히 바꿔야 할 것 같습니다.
결론부터 말씀드리면, 지금 당장 이 모델로 갈아타야 하는 경우와 그렇지 않은 경우가 분명히 갈립니다. 현재 Gemini 2.5 Flash 또는 2.5 Flash-Lite로 API를 쓰고 있다면, 요금 구조 변화를 먼저 확인해야 합니다. 무조건 더 싸지는 게 아닙니다. 이 부분을 본문에서 수치로 정리했습니다.
요금표에서 눈에 걸리는 숫자
| 모델 | 입력 ($/1M) | 출력 ($/1M) | 출력 속도 |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 363 tok/s |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 약 145 tok/s |
| Gemini 2.5 Flash | $0.30 | $2.50 | 약 246 tok/s |
| Gemini 2.5 Pro | $1.25 | $10.00 | — |
출처: Google AI Developer Docs 요금 페이지 (ai.google.dev/gemini-api/docs/pricing, 2026.03.20 확인) / 출력 속도는 Artificial Analysis 기준
💡 공식 요금표를 전작과 나란히 놓고 보니 이런 차이가 보였습니다.
전작인 Gemini 2.5 Flash-Lite는 구글이 2025년 7월 22일 정식 출시(GA)하면서 공식적으로 “오디오 입력 가격을 미리보기 버전 대비 40% 인하”했다고 밝혔습니다. (출처: Google Developers Korea 공식 블로그, 2025.07.22) 즉, 지금 표에 나오는 3.1 Flash-Lite 가격도 GA 이후 바뀔 여지가 있다는 뜻입니다. 이 부분은 뒷 섹션에서 따로 다룹니다.
그런데 왜 실제 비용은 낮아질 수도 있을까요
토큰당 단가는 올랐지만, 같은 작업을 처리하는 데 드는 시간이 2.5배 줄었다면 이야기가 달라집니다. 구글이 공개한 Artificial Analysis 벤치마크 기준으로 Gemini 3.1 Flash-Lite의 출력 속도는 363 토큰/초이고, 2.5 Flash 대비 첫 토큰 응답 속도(TTFT)는 2.5배 빠릅니다. (출처: Google 공식 블로그, blog.google, 2026.03.03)
직접 계산해보면 이렇습니다
시나리오: 하루 10,000건 요청 / 평균 입력 500 토큰 + 출력 1,000 토큰 / 월 30일
Gemini 2.5 Flash-Lite 기준:
입력: 10,000 × 500 × 30 = 150M 토큰 → 150 × $0.10 = $15.00
출력: 10,000 × 1,000 × 30 = 300M 토큰 → 300 × $0.40 = $120.00
월 합계: $135.00
Gemini 3.1 Flash-Lite 기준 (같은 토큰량):
입력: 150M × $0.25 = $37.50
출력: 300M × $1.50 = $450.00
월 합계: $487.50
토큰 소비량이 동일하다면 약 3.6배 비쌉니다.
그런데 여기서 속도 변수를 넣으면 달라집니다. 응답 속도가 2.5배 빠르면, 같은 시간에 처리할 수 있는 요청 수가 늘어납니다. 처리량이 중요한 실시간 배치 워크로드에서는 서버 유지 비용과 처리 시간 비용이 함께 줄어드는 구조입니다. 단순히 “API 토큰 단가”만으로 비교할 수 없는 이유가 여기에 있습니다.
결론적으로 대규모 번역, 이미지 분류, 콘텐츠 중재처럼 처리량과 응답 지연이 핵심인 워크로드에서는 인프라 비용까지 포함한 TCO(총소유비용)가 낮아질 수 있습니다. 반면 단순 텍스트 생성이나 소량 요청에는 2.5 Flash-Lite가 여전히 저렴합니다. 이 구분이 핵심입니다.
무료 한도에서 막히는 조건
Google AI Studio에서는 무료로 Gemini 3.1 Flash-Lite를 사용할 수 있습니다. 현재 무료 티어에서 제공되는 한도는 공식 Rate Limits 문서 기준으로 Gemini 2.5 Flash-Lite의 경우 RPM 15, RPD 1,000이었습니다. Gemini 3.1 Flash-Lite는 현재 미리보기 상태이므로 무료 티어 한도는 확인 필요 상태입니다.
⚠️ 2025년 12월에 실제로 일어난 일
구글은 2025년 12월 6~7일 주말, 무료 티어 rate limit을 예고 없이 50~80% 일괄 삭감했습니다. Gemini 2.5 Pro 유료 Tier 1의 일일 한도는 기존 10,000 RPD에서 300 RPD로, 97% 감축됐습니다. 당시 Reddit에서는 시간당 $500~$2,000의 비상 다운타임 비용을 보고한 개발자가 여럿 나왔습니다. (출처: blog.laozhang.ai 실측 보고, 2026.02.02) 이 사례는 무료 한도를 전제로 서비스를 설계하면 안 된다는 것을 실증합니다.
또 하나, 무료 티어에는 지역 제한이 있습니다. EU·EEA·영국·스위스에서는 무료 티어 사용 자체가 차단됩니다. 무료 티어에서는 프롬프트와 응답이 모델 개선에 활용될 수 있다는 조건이 유럽 개인정보 보호 규정(GDPR)과 충돌하기 때문입니다. 해당 지역 사용자를 서비스하는 경우 처음부터 유료 티어를 써야 합니다.
무료 티어의 실제 구조는 API 키 단위가 아니라 Google Cloud 프로젝트 단위로 한도를 공유합니다. 한 프로젝트 안에서 여러 API 키를 사용해도 RPM·TPM·RPD는 합산됩니다. 이 점을 모르고 여러 서비스에 같은 프로젝트 키를 쓰면 한도가 훨씬 빨리 소진됩니다.
GA 이후 가격이 바뀔 가능성
현재 Gemini 3.1 Flash-Lite는 Preview 상태입니다. 구글이 동일한 경로를 거쳤던 전작 사례를 보면 패턴이 있습니다. Gemini 2.5 Flash-Lite는 미리보기로 출시됐다가 2025년 7월 22일 GA 전환 시 오디오 입력 가격을 40% 인하했습니다. (출처: Google Developers Korea 공식 블로그, developers-kr.googleblog.com, 2025.07.22)
💡 미리보기 출시 → GA 전환 흐름을 전작 수치로 대입해보면 이런 가능성이 보입니다.
2.5 Flash-Lite GA 때 오디오 가격이 40% 낮아진 선례가 있습니다. 3.1 Flash-Lite도 GA 시점에 텍스트 토큰 단가가 조정될 여지는 있지만, 낮아진다는 보장은 없습니다. GA 이후에도 가격이 유지되거나 올라간 사례도 있기 때문에, 지금 시점에서 요금을 기준으로 장기 설계를 하는 것은 확인 필요입니다. 공식 Changelog(ai.google.dev/gemini-api/docs/changelog) 구독을 권장합니다.
추가로 현재 Gemini 2.5 Flash-Lite Preview 09-2025 버전은 2026년 3월 31일 서비스 종료 예정입니다. (출처: Google AI Studio 공식 공지, Reddit r/Bard, 2026.03.10) 이 버전을 모델 ID로 직접 지정해서 쓰고 있다면 별도 마이그레이션이 필요합니다. 해당 버전 사용자는 “gemini-2.5-flash-lite”로 alias를 바꾸거나, 기능 테스트 후 3.1 Flash-Lite 전환을 검토해야 합니다.
이 모델이 유리한 상황과 그렇지 않은 상황
✅ 이럴 때 유리합니다
- 대량 번역(다국어, 실시간)
- 이미지 분류·콘텐츠 중재 배치 처리
- 응답 지연(latency)이 UX에 직접 영향을 주는 챗봇
- 처리량 기준 TCO가 중요한 엔터프라이즈 워크로드
- Thinking Levels 기능으로 추론 깊이를 조절하고 싶은 경우
❌ 이럴 때는 전작이 낫습니다
- 소량 요청 위주 개인 프로젝트 (2.5 Flash-Lite가 2.5배 저렴)
- 창의적 글쓰기·고급 추론 (Gemini 2.5 Pro 권장)
- Preview 불안정성을 허용할 수 없는 프로덕션 서비스
- EU/EEA 사용자 포함 무료 티어 서비스
Thinking Levels 기능은 이 모델의 차별점 중 하나입니다. 요청마다 추론 깊이를 빠른 모드·표준 모드·깊은 사고 모드로 선택할 수 있어, 단순 분류는 빠르게 처리하고 복잡한 UI 생성은 더 깊이 생각하게 만들 수 있습니다. 이 기능은 2.5 Flash-Lite에는 없던 구조이며, Google AI Studio와 Vertex AI 모두에서 지원됩니다.
Q&A
Q. Gemini 3.1 Flash-Lite는 지금 당장 쓸 수 있나요?
네, Google AI Studio(aistudio.google.com)와 Vertex AI에서 미리보기(Preview) 버전으로 즉시 접근 가능합니다. 모델 ID는 gemini-3.1-flash-lite-preview입니다. 단, GA(정식 출시) 전이므로 프로덕션 서비스 적용 전에 안정성 검토를 권장합니다.
Q. 기존에 Gemini 2.5 Flash-Lite를 쓰고 있었는데, 3.1로 바꾸면 비용이 어떻게 달라지나요?
토큰 소비량이 동일하다고 가정하면 입력 2.5배, 출력 3.75배 비용이 오릅니다. 그러나 응답 속도가 약 2.5배 빨라지므로, 처리량 기준으로 인프라 비용까지 포함한 전체 비용은 워크로드 특성에 따라 달라집니다. 대량 배치 처리라면 직접 벤치마크를 돌려보는 것이 가장 정확합니다.
Q. 무료 티어로 하루에 몇 번이나 쓸 수 있나요?
Q. Gemini 2.5 Flash-Lite Preview 09-2025를 아직도 쓰고 있는데, 어떻게 해야 하나요?
해당 버전은 2026년 3월 31일 종료됩니다. 지금 당장 모델 ID를 gemini-2.5-flash-lite (alias, GA 버전)로 교체하거나, 기능 테스트 후 3.1 Flash-Lite 전환을 결정하는 것이 좋습니다. 3월 31일 이후에도 해당 ID를 호출하면 오류가 발생합니다.
Q. Thinking Levels 기능을 끄면 2.5 Flash-Lite와 성능 차이가 없는 건가요?
Thinking Levels를 끄거나 최소화해도 3.1 Flash-Lite는 기본 아키텍처 자체가 다르기 때문에 벤치마크 성능(GPQA Diamond 86.9% vs 2.5 Flash-Lite 82.1%)에서 차이가 납니다. 다만 빠른 모드에서는 응답 품질이 표준 모드보다 낮을 수 있으므로 작업 유형에 맞는 레벨 선택이 필요합니다.
마치며
다만 “가성비”라는 수식어는 맥락을 잘 봐야 합니다. Gemini 3 시리즈 안에서는 가장 싸지만, 직전 세대 Gemini 2.5 Flash-Lite와 비교하면 유료 API 단가가 2.5~3.75배 높습니다. 소량 요청 위주의 개인 프로젝트나 간단한 텍스트 작업에서는 지금 당장 전환할 이유가 없습니다.
또 하나는 Preview 상태라는 점입니다. 구글은 GA 전환 시 가격을 내릴 수도 있고 유지할 수도 있습니다. 2025년 12월 무료 한도 대규모 삭감처럼 예고 없는 변화도 실제로 일어났습니다. 이 모델을 프로덕션에 태우기 전에 공식 Changelog를 정기적으로 확인하고, 요금 급변에 대비한 fallback 전략을 미리 설계해두는 것이 이 모델을 가장 잘 쓰는 방법입니다.
본 포스팅 참고 자료
- Google 공식 블로그 — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
- Google AI Developer Docs — Gemini API 요금 페이지 (2026.03.20 확인)
- Google Developers Korea 블로그 — Gemini 2.5 Flash-Lite GA 발표 (2025.07.22)
- Google AI Developer Docs — 비율 제한(Rate Limits) 문서
- Gemini API Free Tier 2026: Complete Guide (laozhang.ai, 2026.02.02)
※ 본 포스팅 작성 이후 Gemini API의 서비스 정책·요금·UI·기능이 변경될 수 있습니다. 특히 현재 Gemini 3.1 Flash-Lite는 Preview 상태로, GA 전환 시 가격·한도·기능이 달라질 수 있습니다. 항상 Google 공식 문서를 기준으로 최종 확인하시기 바랍니다.

댓글 남기기