Gemini 3.1 Flash Lite, 가장 저렴하다고요? 비교해보니 달랐습니다

Published on

in

Gemini 3.1 Flash Lite, 가장 저렴하다고요? 비교해보니 달랐습니다

2026.03.28 기준
gemini-3.1-flash-lite-preview 기준
TECH 테마

Gemini 3.1 Flash Lite, 가장 저렴하다고요? 비교해보니 달랐습니다

구글이 “역대 최고 가성비”라고 발표했지만, 공식 가격표 두 줄을 나란히 놓으면 전혀 다른 그림이 나옵니다. Gemini 2.5 Flash-Lite 대비 출력 토큰 비용이 3.75배 비싼데도 왜 이 모델이 주목받는지, 그리고 어떤 상황에서 진짜 손해인지 공식 수치로만 따졌습니다.

$0.25
입력 / 1M토큰
3.75×
출력 비용 차이(vs 2.5)
500 RPD
무료 검색 그라운딩
2026.03.03
프리뷰 출시일

“최고 가성비”라는 말이 성립하는 조건이 따로 있습니다

구글은 2026년 3월 3일 공식 블로그에서 Gemini 3.1 Flash-Lite를 이렇게 소개했습니다. “비용 효율성의 타협 없이(Cost-efficiency without compromise).” 그리고 “역대 가장 비용 효율적인 Gemini 모델”이라는 문장을 넣었습니다. 이 문장은 틀린 말이 아닙니다. 단, GPT-5 mini나 Claude 4.5 Haiku처럼 타사 경쟁 모델 대비, 혹은 Gemini 3 Pro·Flash처럼 상위 모델 대비로 볼 때입니다.

문제는 많은 사람이 이 말을 “Gemini 2.5 Flash-Lite보다 싸다”는 뜻으로 받아들인다는 점입니다. 같은 Lite 계열이고, 더 새 버전이니 더 저렴하겠지 하는 건데, 공식 가격표를 열어보면 정반대입니다. 입력 토큰이 2.5배, 출력 토큰이 3.75배 더 비쌉니다. (출처: Google Gemini API Pricing, 2026.03.28 기준)

“가장 저렴하다”는 말이 성립하는 맥락이 있고, 무너지는 맥락이 있습니다. 어느 쪽인지 먼저 확인해야 모델 선택에서 손해를 보지 않습니다.

공식 가격표를 나란히 놓으면 보이는 것

💡 공식 발표문과 실제 가격표를 같이 놓고 보니 이런 차이가 보였습니다.

구글 공식 Gemini API 가격 페이지(2026.03.28 기준)에서 두 모델을 직접 추출하면 이렇습니다.

항목 Gemini 3.1 Flash-Lite Preview Gemini 2.5 Flash-Lite (안정화)
입력 가격 (텍스트/이미지/영상) $0.25 / 1M토큰 $0.10 / 1M토큰
출력 가격 $1.50 / 1M토큰 $0.40 / 1M토큰
오디오 입력 $0.50 / 1M토큰 $0.30 / 1M토큰
무료 티어 토큰 무료 표준 티어 없음 무료 표준 티어 있음
모델 상태 Preview Stable
출시일 2026.03.03 2025.07.22

(출처: Google Gemini API Pricing 공식 페이지, ai.google.dev/gemini-api/docs/pricing, 2026.03.28 기준)

출력 토큰 단가 차이가 3.75배입니다. API 비용에서 출력이 차지하는 비중은 대부분의 워크플로에서 압도적으로 크기 때문에, 이 숫자 하나가 전체 청구서를 바꿉니다. 대규모 요약 파이프라인을 운영한다면 같은 트래픽에서 3~4배 청구액 차이가 납니다.

그렇다고 3.1 Flash-Lite가 나쁜 선택이라는 뜻은 아닙니다. 3.1 Flash-Lite가 더 비싸더라도 더 좋은 모델이라서, 재시도·후처리 비용을 줄여주는 상황이라면 실질 비용이 역전될 수 있습니다. 단, 그 판단은 가격표 하나만 보고 내릴 수 없습니다.

무료로 쓸 수 있다는 말의 진짜 범위

Google AI Studio에서 Gemini 3.1 Flash-Lite를 프롬프트 창에 직접 쳐보는 건 무료입니다. 스튜디오 자체 이용은 모든 지역에서 무료이고, 이 부분은 공식 가격 페이지 각주에 명시돼 있습니다.

그런데 API로 연동해서 쓰는 상황이라면 다릅니다. 공식 가격 페이지에서 Gemini 3.1 Flash-Lite Preview 항목을 보면, 표준 티어의 “Free Tier” 칸에 “무료(Free of charge)”가 아니라 아무 값도 없습니다. 반면 2.5 Flash-Lite는 표준 티어 입력·출력 모두 “Free of charge”로 표시돼 있습니다. 3.1 Flash-Lite는 Batch API 기준으로도 입력·출력 모두 무료 항목이 있는데, Batch는 실시간 응답이 필요 없는 비동기 워크로드에만 해당합니다.

💡 Google Search 그라운딩 한도, 두 모델이 나눠 씁니다

공식 가격 페이지에는 이렇게 적혀 있습니다. “Free of charge, up to 500 RPD (limit shared for Flash and Flash-Lite).” 즉 무료 구글 검색 그라운딩 하루 500건은 Gemini 2.5 Flash, 2.5 Flash-Lite, 3.1 Flash-Lite가 같은 프로젝트 안에서 함께 씁니다. 두 모델을 동시에 돌리면 그라운딩 한도가 공유되어 예상보다 빨리 소진됩니다.

Reddit r/Bard 커뮤니티에서는 3.1 Flash-Lite 출시 직후 “Free tier rate limits가 엄청 넉넉하다”는 반응이 나왔습니다. 하지만 그 맥락은 Batch API 기준이거나, AI Studio 직접 사용 기준이었습니다. API를 실시간으로 호출하는 표준 티어에서는 무료 토큰 테이블이 따로 없다는 점을 놓치기 쉽습니다.

정리하면, “무료로 쓸 수 있다”는 말은 AI Studio에서 직접 테스트하거나 Batch API를 비동기로 쓸 때 성립합니다. 앱이나 서비스에 API 실시간 연동을 넣으려면 과금이 발생합니다.

기능은 Gemini 3인데, 이건 안 됩니다

“Gemini 3.1″이라는 이름을 보면 Gemini 3 시리즈의 최신 모델이니 당연히 모든 기능이 다 될 것 같지만, 공식 모델 페이지에 Not supported 항목이 꽤 있습니다.

❌ 지원 안 됨
  • 오디오 생성
  • 이미지 생성 (Nano Banana)
  • Live API
  • Computer Use
✅ 지원됨
  • Thinking (추론 모드)
  • 함수 호출 (Function Calling)
  • 구글 검색 그라운딩
  • 코드 실행
  • URL 컨텍스트
  • 파일 검색
  • 구조화 출력 (JSON)

(출처: Google AI Developers — gemini-3.1-flash-lite-preview 공식 모델 페이지, ai.google.dev, 2026.03.18 업데이트)

특히 Live API가 빠진 부분은 실시간 음성·영상 대화 앱을 만들려는 개발자에게 치명적입니다. 이름만 보고 Gemini 3.1이니까 다 될 거라고 생각하면 막히는 지점입니다.

Thinking 기능은 지원하는데, 이게 오히려 양날의 검입니다. 추론 단계에서 토큰을 추가로 소모하기 때문에, Thinking을 켜고 대용량으로 돌리면 이미 높은 출력 단가($1.50/1M)에 추론 토큰까지 더해져서 예상보다 청구가 커질 수 있습니다. 공식 문서에서 별도 Thinking 토큰 단가를 밝히지 않았습니다.

속도·벤치마크, 숫자로만 보면

구글 공식 블로그에서 Artificial Analysis 벤치마크를 인용해 두 수치를 발표했습니다. “2.5 Flash 대비 첫 응답 토큰 속도 2.5배 빠름, 출력 속도 45% 향상.” 이 두 숫자는 2.5 Flash-Lite가 아니라 2.5 Flash 전체 모델 대비입니다.

💡 같은 Lite끼리 비교하면 속도 우위가 사라집니다

aifreeapi.com이 공식 수치로 작성한 비교표(2026.03.20 기준)에 따르면, 출력 속도는 3.1 Flash-Lite가 363 tokens/s, 2.5 Flash-Lite가 366 tokens/s로 사실상 동일합니다. 속도 우위는 상위 모델인 2.5 Flash 전체 라인 대비로만 성립합니다.

반면 품질 벤치마크에서는 격차가 뚜렷합니다. 구글 딥마인드 공식 비교표에서 3.1 Flash-Lite와 2.5 Flash-Lite를 나란히 놓으면, GPQA Diamond(전문가 수준 과학 질의)는 86.9% vs 66.7%, MMMU-Pro(멀티모달 추론)는 76.8% vs 51.0%, LiveCodeBench(코딩)는 72.0% vs 34.3%입니다. (출처: Google DeepMind Gemini 3.1 Flash-Lite 공식 발표, 2026.03.03)

이 숫자가 현실적으로 의미하는 건, 번역·추출·분류처럼 “정밀도가 비용을 결정하는” 파이프라인에서 3.1 Flash-Lite가 재시도 횟수를 줄여줄 가능성이 있다는 겁니다. 재시도 1회가 줄면 토큰 비용 3.75배 차이를 부분적으로 상쇄할 수 있습니다.

단, 이 상쇄 논리가 실제로 성립하는지는 자신의 워크로드를 직접 테스트해야 알 수 있습니다. 벤치마크 점수가 높다고 모든 태스크에서 재시도가 줄어드는 건 아닙니다.

지금 2.5 Flash-Lite 쓰고 있다면 이것부터 확인하세요

💡 종료 시점이 두 갈래로 다릅니다 — 어떤 ID를 쓰는지가 핵심입니다

공식 deprecations 페이지(ai.google.dev/gemini-api/docs/deprecations)에 따르면, 구 프리뷰 ID인 gemini-2.5-flash-lite-preview-09-2025는 최조기 종료일이 2026년 3월 31일입니다. 포스팅 작성 시점(2026.03.28)에서 3일 남았습니다.

안정화 버전인 gemini-2.5-flash-lite는 최조기 종료일이 2026년 7월 22일이고, 구글이 공식 권장 대체 모델로 gemini-3.1-flash-lite-preview를 지정했습니다. 즉 결국 3.1로 올라야 합니다.

상황별로 정리하면 이렇습니다.

  • 구 프리뷰 ID 사용 중 → 지금 당장 마이그레이션이 필요합니다. 3일 안에 종료됩니다.
  • 안정화 ID 사용 중, 대용량 요약·압축·저가 분류 작업 → 7월 22일까지 시간이 있습니다. 3.1의 3.75배 출력 단가가 품질 이득으로 충분히 상쇄되는지 먼저 벤치마크하세요.
  • 안정화 ID 사용 중, 번역·추출·라우팅처럼 정밀도가 중요한 작업 → 3.1로 이전하면 재시도 감소로 실질 비용이 낮아질 수 있습니다. 일부 트래픽만 우선 전환해서 테스트하는 방식이 안전합니다.

한 가지 더, Preview 상태라는 점입니다. 공식 rate-limits 문서에는 “프리뷰 모델은 더 제한적인 속도 제한을 가질 수 있고, 실제 용량은 다를 수 있다”고 명시했습니다. 프리뷰 모델을 프로덕션 기본 경로로 두는 건 안정화 선언 전까지는 위험 부담이 있습니다.

Q&A

Q1. Gemini 3.1 Flash-Lite는 무료로 쓸 수 있나요?
Google AI Studio에서 직접 프롬프트를 입력하는 방식은 모든 지역에서 무료입니다. Batch API도 무료 티어가 있습니다. 하지만 앱이나 서비스에 API를 실시간 연동하는 표준 티어에는 무료 토큰 항목이 없습니다. (출처: Google Gemini API Pricing, ai.google.dev/gemini-api/docs/pricing)
Q2. Gemini 3.1 Flash-Lite가 2.5 Flash-Lite보다 실제로 더 비싼가요?
공식 가격표 기준으로 입력은 2.5배, 출력은 3.75배 비쌉니다. 구글이 “역대 최고 가성비”라고 한 건 타사 경쟁 모델 대비 표현입니다. (출처: Google Gemini API Pricing, 2026.03.28 확인)
Q3. 구글 검색 그라운딩 무료 한도 500 RPD는 어느 모델에 적용되나요?
Q4. 2.5 Flash-Lite에서 3.1 Flash-Lite로 언제까지 이전해야 하나요?
구 프리뷰 ID(gemini-2.5-flash-lite-preview-09-2025)는 최조기 종료일이 2026년 3월 31일입니다. 안정화 ID(gemini-2.5-flash-lite)는 최조기 종료일이 2026년 7월 22일입니다. (출처: Google Gemini API Deprecations 공식 페이지)
Q5. 3.1 Flash-Lite에서 이미지 생성이나 Live API를 쓸 수 있나요?
둘 다 Not supported입니다. 이미지 생성은 Nano Banana(Gemini 3.1 Flash Image Preview) 모델이 별도로 있고, Live API는 Gemini 2.5 Flash 라인에서 지원합니다. (출처: ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-lite-preview, 2026.03.18 업데이트)

마치며

Gemini 3.1 Flash-Lite는 잘 만든 모델입니다. GPQA Diamond 86.9%, LiveCodeBench 72.0% 등 벤치마크 수치가 같은 Lite 계열 중 압도적입니다. 문제는 발표 문구가 실제 상황을 단순하게 만들어버린다는 점입니다.

“가장 저렴하다”는 말은 비교 대상을 잘 골라야 성립합니다. 직전 세대 Lite 모델 대비로는 출력이 3.75배 비쌉니다. “무료로 쓸 수 있다”는 말은 AI Studio 직접 사용이나 Batch API에 한해서 맞습니다. “속도가 2.5배 빠르다”는 말은 같은 Lite끼리 비교하면 사실상 동일합니다.

지금 당장 결정이 필요한 포인트는 하나입니다. 구 프리뷰 ID(gemini-2.5-flash-lite-preview-09-2025)를 쓰고 있다면, 3월 31일 종료 기한이 사흘 남았습니다. 이건 검토가 아니라 즉시 대응입니다.

안정화 버전 사용자라면 7월 22일까지 시간이 있으니, 비용과 품질을 같이 측정한 뒤 판단해도 늦지 않습니다.

본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03) — blog.google
  2. Google AI Developers — gemini-3.1-flash-lite-preview 공식 모델 페이지 (2026.03.18 업데이트) — ai.google.dev
  3. Google Gemini API Pricing 공식 페이지 (2026.03.28 확인) — ai.google.dev/gemini-api/docs/pricing
  4. Google Gemini API Rate Limits 공식 페이지 (2026.03.26 업데이트) — ai.google.dev/gemini-api/docs/rate-limits
  5. Google Vertex AI Pricing — Gemini 3.1 Flash-Lite 가격 (2026.03.28 확인) — cloud.google.com

본 포스팅은 2026년 3월 28일 기준 공식 문서를 토대로 작성됐습니다. Gemini API의 가격, 모델 ID, 기능 지원 여부, 종료 일정은 Google이 별도 공지 없이 변경할 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 Google AI 공식 문서에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기