Gemini 3.1 Flash-Lite, 6가지 수치로 직접 따져봤습니다

Published on

in

Gemini 3.1 Flash-Lite, 6가지 수치로 직접 따져봤습니다
2026.03.03 출시 / gemini-3.1-flash-lite-preview 기준

Gemini 3.1 Flash-Lite, 6가지 수치로 직접 따져봤습니다

구글 공식 문서와 가격 페이지를 직접 뽑아서 정리했습니다. “싸다고 무조건 좋다”는 말, 이 모델에는 반만 맞습니다.

입력 $0.25/1M
출력 363 tokens/s
GPQA Diamond 86.9%
컨텍스트 1M 토큰


Gemini 3.1 Flash-Lite가 뭔지부터 짚고 갑니다

2026년 3월 3일, Google DeepMind가 Gemini 3.1 Flash-Lite Preview를 Google AI Studio와 Vertex AI에서 공개했습니다. 모델 ID는 gemini-3.1-flash-lite-preview이고, Gemini 3 시리즈에서 가장 가볍고 빠른 포지션으로 출시됐습니다. (출처: Google Cloud Vertex AI 공식 문서, 2026.03.03)

이 모델의 지식 학습 기준일(knowledge cutoff)은 2025년 1월이고, 최대 입력 토큰은 1,048,576개(약 1M), 최대 출력 토큰은 65,535개입니다. 텍스트·이미지·영상·오디오·PDF 입력을 모두 지원하고, 사고(Thinking) 기능도 내장돼 있습니다.

이전 버전인 Gemini 2.5 Flash와 이름이 비슷해 혼동이 많은데, 이 둘은 세대가 다릅니다. Gemini 3.1이 나중에 나왔지만, Lite가 붙어 있어서 성능이 낮을 거라 생각하기 쉽습니다. 막상 벤치마크를 뜯어보면 그 판단이 틀린 경우가 꽤 있습니다.

▲ 목차로 돌아가기

공식 벤치마크 수치, 직접 읽어봤습니다

Google DeepMind 공식 모델 비교 페이지에 Gemini 3.1 Flash-Lite High와 Gemini 2.5 Flash Dynamic을 나란히 놓은 표가 있습니다. 거기서 뽑은 수치가 아래입니다. (출처: Google DeepMind 공식 Gemini Flash-Lite 모델 페이지)

평가 항목 3.1 Flash-Lite 2.5 Flash 유리한 쪽
출력 속도 (tokens/s) 363 249 3.1 FL
GPQA Diamond (과학 추론) 86.9% 82.8% 3.1 FL
MMMU-Pro (멀티모달 추론) 76.8% 66.7% 3.1 FL
LiveCodeBench (코딩) 72.0% 62.6% 3.1 FL
FACTS (사실 정확도) 40.6% 50.4% 2.5 Flash
MRCR v2 at 1M (초장문 검색) 12.3% 21.0% 2.5 Flash

💡 공식 발표문과 벤치마크 표를 같이 놓고 보니 이런 차이가 보였습니다 — Lite라는 이름과 달리, 추론·코딩·멀티모달 점수에선 오히려 3.1이 앞서지만 사실 정확도와 초장문 검색에선 2.5 Flash가 여전히 위입니다. 두 수치 모두 공식 DeepMind 페이지에서 뽑은 것입니다.

솔직히 말하면, Lite라는 단어가 들어가 있어서 성능이 전반적으로 낮을 거라 생각하기 쉬운데, GPQA Diamond 기준 86.9%는 이전 세대 상위 모델도 쉽게 넘지 못하는 수치입니다. 성능이 낮아서 싼 게 아니라, 설계 자체를 다르게 했다고 보는 편이 맞습니다.

▲ 목차로 돌아가기

가격이 싸다는 말, 조건이 있습니다

Gemini 3.1 Flash-Lite의 Vertex AI 기준 공식 가격은 입력 $0.25/1M 토큰, 출력 $1.50/1M 토큰입니다. Gemini 2.5 Flash($0.30/$2.50)와 비교하면 입력은 약 17% 저렴하고, 출력은 40% 저렴합니다. (출처: Google Cloud Vertex AI 가격 공식 페이지, 2026.03 기준) 출력 토큰 비용이 40% 낮다는 건, 응답이 길어질수록 청구액 차이가 벌어진다는 뜻입니다.

그런데 여기서 흔히 놓치는 게 하나 있습니다. 같은 Gemini 계열에서 가장 저렴한 모델은 3.1 Flash-Lite가 아닙니다. Gemini 2.5 Flash-Lite는 입력 $0.10, 출력 $0.40으로, 3.1 Flash-Lite보다 입력이 2.5배, 출력이 3.75배 더 쌉니다. (출처: Google Cloud Vertex AI 가격 공식 페이지)

💡 가격표를 가로로 비교해보니 보이는 것 — Gemini 3.1 Flash-Lite는 2.5 Flash보다는 싸지만, 같은 계열 중 최저가는 아닙니다. “Gemini에서 가장 싼 모델”을 찾고 있다면 2.5 Flash-Lite($0.10/$0.40)를 먼저 확인해야 합니다.

모델 입력 /1M 출력 /1M 상태
Gemini 2.5 Flash-Lite $0.10 $0.40 GA (안정)
Gemini 3.1 Flash-Lite ★ $0.25 $1.50 Preview
Gemini 2.5 Flash $0.30 $2.50 GA (안정)
Gemini 3.1 Flash $0.50 $3.00 GA

★ 이 글의 주제 모델. 가격 출처: Google Cloud Vertex AI 공식 가격 페이지 (2026.03 기준)

▲ 목차로 돌아가기

속도 수치, 실제로 어떤 의미인지 계산했습니다

구글 공식 발표문은 Gemini 3.1 Flash-Lite가 Gemini 2.5 Flash 대비 첫 응답 토큰 속도(TTFT) 2.5배, 출력 속도 45% 향상됐다고 밝혔습니다. (출처: Google 공식 블로그, 2026.03.03) DeepMind 벤치마크 표에는 3.1 Flash-Lite 363 tokens/s, 2.5 Flash 249 tokens/s로 나와 있습니다.

이 수치가 실제로 얼마나 체감되는지 직접 계산해봤습니다. 1,000 토큰짜리 응답(한국어 기준 약 800자 분량)을 생성할 때 걸리는 시간을 역산하면, 2.5 Flash는 약 4.0초, 3.1 Flash-Lite는 약 2.75초입니다. 1.25초 차이가 작아 보이지만, 하루 10만 건 이상 API를 호출하는 앱이라면 대기열 누적 효과가 상당합니다.

⚡ 직접 계산 가능한 공식

응답 생성 시간(초) = 출력 토큰 수 ÷ 출력 속도(tokens/s)

→ 2.5 Flash: 1,000 ÷ 249 ≒ 4.0초

→ 3.1 Flash-Lite: 1,000 ÷ 363 ≒ 2.75초

단, 이 수치는 DeepMind 공식 발표 기준이고, 실제 API 레이턴시는 네트워크 환경·리전·부하 상황에 따라 달라집니다. Gemini API 공식 rate-limits 페이지는 “지정된 속도 제한은 보장되지 않으며 실제 용량은 달라질 수 있다”고 명시하고 있습니다. (출처: Gemini API 공식 rate-limits 페이지)

▲ 목차로 돌아가기

그라운딩 무료 티어 — 2.5 Flash와 결정적으로 다른 부분

가격과 속도만 보면 3.1 Flash-Lite가 전반적으로 우세한데, 여기서 실제 앱 운영에 영향을 미치는 결정적 차이가 하나 있습니다. 구글 검색 그라운딩(Search Grounding)의 무료 티어 유무입니다.

공식 Gemini Developer API 가격 페이지 기준 (2026.03), Gemini 2.5 Flash는 하루 500 RPD(requests per day)까지 Google 검색 그라운딩을 무료로 사용할 수 있습니다. 반면 Gemini 3.1 Flash-Lite Preview에는 무료 검색 그라운딩 티어가 없고, 월 5,000건 이후부터 유료로 전환됩니다. (출처: Gemini Developer API 공식 가격 페이지, 2026.03 기준) 무료 그라운딩에 의존한 챗봇이나 실시간 검색 기능이 있다면, 이 부분에서 예상치 못한 비용이 발생할 수 있습니다.

⚠️ 주의: 기존 앱에서 Gemini 2.5 Flash의 무료 검색 그라운딩 티어를 사용 중이라면, 3.1 Flash-Lite로 교체할 때 그라운딩 비용이 추가로 발생합니다. 토큰 비용 절감분과 그라운딩 추가 비용을 함께 계산해야 합니다.

배치 처리에서는 오히려 3.1 Flash-Lite가 유리합니다. 공식 rate-limits 페이지 Tier 1 기준, 3.1 Flash-Lite Preview는 배치 API 최대 대기 토큰이 1,000만 개인 반면 Gemini 2.5 Flash는 300만 개입니다. 대규모 비동기 작업에서는 3.1 Flash-Lite가 세 배 이상 큰 배치 수용 가능성을 공식적으로 보여주고 있습니다. — 단, 공식 문서는 이 수치도 “보장되지 않는다”고 명시하고 있습니다.

▲ 목차로 돌아가기

어떤 작업에 쓰고, 어떤 작업엔 쓰지 말아야 하는가

공식 Gemini 3.1 Flash-Lite 모델 페이지는 이 모델의 최적 사용 사례로 번역, 음성-텍스트 변환(ASR), 단순 문서 처리, 고용량 구조화 추출, 모델 라우팅을 직접 명시하고 있습니다. (출처: Gemini API 공식 모델 페이지) 이 용도에서는 낮은 출력 비용과 빠른 TTFT가 즉각적인 이점으로 작용합니다.

반면 이 모델을 쓰지 않는 편이 낫거나 신중하게 검토해야 하는 상황도 공식 수치로 확인됩니다. FACTS 벤치마크 40.6%(2.5 Flash는 50.4%)는 사실 정확도가 중요한 의료·법률·금융 정보 응답 앱에서는 아직 2.5 Flash가 더 신뢰할 수 있는 선택이라는 신호입니다. 1M 컨텍스트 기반 장문 검색(MRCR v2 at 1M, 12.3% vs 21.0%)도 마찬가지입니다.

✅ 잘 맞는 작업

  • 대용량 번역 파이프라인
  • 분류·라우팅 레이어
  • 구조화 JSON 추출
  • 음성 전사(ASR)
  • UI 코드 생성, 경량 코딩
  • 비동기 배치 처리

⚠️ 신중히 검토할 작업

  • 검색 그라운딩 의존 챗봇
  • 사실 정확도 민감한 도메인
  • 1M 컨텍스트 장문 검색
  • 안정적 라이프사이클 필요 앱
  • “최저가 모델” 대체 목적

Preview 상태라는 점도 실제 운영에서 중요합니다. 공식 rate-limits 문서는 Preview 모델이 GA 모델보다 속도 제한이 더 타이트하다고 명시하고 있습니다. 기존에 2.5 Flash를 이미 쓰고 있다면, 번역·분류 같은 고용량 저위험 작업부터 먼저 교체해보고 결과를 확인하는 게 가장 안전한 접근입니다.

▲ 목차로 돌아가기

Q&A 5개

Q1. Gemini 3.1 Flash-Lite는 Gemini 2.5 Flash보다 무조건 낫나요?
속도·비용·추론·코딩 벤치마크에서는 앞서지만, 사실 정확도(FACTS 40.6% vs 50.4%)와 1M 컨텍스트 장문 검색(MRCR v2 12.3% vs 21.0%)에서는 2.5 Flash가 공식 수치상 여전히 높습니다. “더 낫다”는 말이 반만 맞습니다.
Q2. Gemini에서 가장 싼 모델이 3.1 Flash-Lite 맞나요?
아닙니다. Gemini 2.5 Flash-Lite가 입력 $0.10, 출력 $0.40으로 더 저렴합니다. 3.1 Flash-Lite는 입력 $0.25, 출력 $1.50이라 2.5 Flash-Lite보다 입력 2.5배, 출력 3.75배 비쌉니다. 가격만 보고 3.1을 고른다면 오히려 손해입니다.
Q3. 지금 바로 프로덕션에 쓸 수 있나요?
현재 Preview 상태입니다. 공식 rate-limits 페이지는 Preview 모델이 GA 모델보다 속도 제한이 더 타이트하고, 실제 용량은 보장되지 않는다고 명시하고 있습니다. 번역·분류 같은 위험도 낮은 고용량 작업부터 파일럿으로 시작하고, 안정성이 중요한 서비스는 GA 전환 이후를 권장합니다.
Q4. 검색 그라운딩을 쓰고 있었는데 교체해도 되나요?
주의가 필요합니다. Gemini 2.5 Flash는 하루 500 RPD 무료 구글 검색 그라운딩을 제공하지만, 3.1 Flash-Lite Preview는 무료 그라운딩 티어가 없습니다. 그라운딩 의존 비율이 높다면 토큰 비용 절감분보다 그라운딩 추가 비용이 더 클 수 있어 먼저 사용량을 계산해보는 게 좋습니다.
Q5. 한국어 처리 성능도 개선됐나요?
공식 문서에서 한국어 성능 수치를 별도로 공개하지 않았습니다. 다만 Vertex AI 공식 문서는 번역·오디오 전사(ASR)·멀티모달 이해 개선을 주요 기능으로 명시하고 있어, 다국어 처리 전반이 이전보다 개선된 것으로 알려져 있습니다. 실제 한국어 품질은 직접 테스트로 확인하는 것이 가장 정확합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash-Lite에 대해 가장 자주 보이는 설명은 “싸고 빠른 신형 모델”이라는 것입니다. 틀린 말은 아닌데, 그 말 뒤에 숨은 조건을 보지 않으면 판단 실수가 생깁니다. 직접 공식 수치를 뽑아서 나란히 놓고 보니, 이 부분이 제일 분명하게 보였습니다.

결론부터 말씀드리면, 번역·분류·추출·라우팅 같은 고용량 저위험 작업에서는 지금 당장 파일럿을 시작할 만한 가치가 있습니다. 출력 토큰 비용이 40% 저렴하고 속도가 45% 빠르다는 건, 대량 처리 파이프라인에서 체감되는 수준입니다. 다만 사실 정확도 민감 도메인, 그라운딩 의존 앱, 안정 라이프사이클이 필요한 서비스라면 아직 2.5 Flash를 기본값으로 두는 게 맞습니다. Preview와 GA의 차이는 숫자로 보이지 않는 운영 리스크에서 드러납니다.

이 포스팅의 모든 수치는 2026년 3월 25일 기준 공식 Google DeepMind·Vertex AI·Gemini Developer API 페이지에서 직접 확인한 것입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Google Cloud Vertex AI — Gemini 3.1 Flash-Lite 공식 모델 문서
  2. Google DeepMind — Gemini Flash-Lite 공식 모델 비교 페이지
  3. Google Cloud — Vertex AI Generative AI 공식 가격 페이지 (2026.03 기준)
  4. Google — Gemini Developer API 공식 가격 페이지
  5. Google — Gemini API 공식 rate-limits 페이지
  6. Google 공식 블로그 — Gemini 3.1 Flash-Lite 출시 발표 (2026.03.03)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격·스펙 수치는 2026년 3월 25일 기준 Google 공식 문서를 참조하였으며, 이후 업데이트로 달라질 수 있습니다. 투자·비즈니스 결정에 활용 시 공식 문서에서 최신 정보를 반드시 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기