Gemini 3.1 Flash-Lite, 수치 4개로 직접 따져봤습니다

Published on

in

Gemini 3.1 Flash-Lite, 수치 4개로 직접 따져봤습니다

2026.03.03 공개 프리뷰 기준
gemini-3.1-flash-lite-preview

Gemini 3.1 Flash-Lite,
수치 4개로 직접 따져봤습니다

구글이 “비용 효율적”이라 설명한 이 모델, 공식 모델 카드 수치를 그대로 놓고 보면 생각과 다른 부분이 있습니다. 가격·속도·성능·실제 토큰 비용, 4가지로 직접 계산해봤습니다.

$0.25
입력 토큰 /1M
363 t/s
출력 속도
86.9%
GPQA Diamond
1M
컨텍스트 윈도우

Gemini 3.1 Flash-Lite가 뭔지 30초로 정리

구글 딥마인드가 2026년 3월 3일 공개 프리뷰로 선보인 Gemini 3.1 Flash-Lite는 Gemini 3 시리즈 중 가장 빠르고 가벼운 위치에 놓인 모델입니다. 공식 문서에 딱 이렇게 나옵니다 — “번역, 분류처럼 대량·저지연 작업에 최적화된 비용 효율적 모델”이라고 말이죠. (출처: Gemini 3.1 Flash-Lite 공식 모델 카드, 2026.03.03)

모델 ID는 gemini-3.1-flash-lite-preview이며, Vertex AI와 Google AI Studio에서 현재 프리뷰 상태로 사용 가능합니다. 학습 데이터 기준일은 2025년 1월입니다. (출처: Vertex AI 공식 문서, 2026.03.15 기준)

이름에 “Flash-Lite”가 붙어 있어 이전 세대 2.5 Flash-Lite의 단순 업그레이드처럼 보이는데, 구조를 들여다보면 그렇게 단순하지 않습니다. 이 모델의 베이스는 Gemini 3 Pro입니다. 가격은 Lite급이지만 아키텍처 뿌리는 Pro급이라는 점이 포인트입니다. (출처: Gemini 3.1 Flash-Lite 공식 모델 카드)

▲ 목차로 돌아가기

가격표 먼저 — 2.5 Flash-Lite와 숫자가 다릅니다

구글 Cloud 가격 문서를 직접 확인했습니다. Gemini 3.1 Flash-Lite의 Vertex AI 기준 가격은 입력 토큰 $0.25/1M, 출력 토큰 $1.50/1M입니다. (출처: Google Cloud Vertex AI Pricing, 2026.03.15 기준)

모델 입력 $/1M 출력 $/1M 출력 속도
Gemini 3.1 Flash-Lite $0.25 $1.50 363 t/s
Gemini 2.5 Flash-Lite $0.10 $0.40 366 t/s
GPT-5 mini (High) $0.25 $2.00 71 t/s
Claude Haiku 4.5 (ET) $1.00 $5.00 108 t/s
Grok 4.1 Fast Reasoning $0.20 $0.50 145 t/s

출처: Gemini 3.1 Flash-Lite 공식 모델 카드 (deepmind.google, 2026.03.03)

숫자가 눈에 바로 들어오죠. 2.5 Flash-Lite 대비 입력은 2.5배, 출력은 3.75배 비쌉니다. 그런데 속도는 366 t/s 대 363 t/s로 사실상 동일합니다. 즉, 속도 때문에 3.1 Flash-Lite를 선택하는 논리는 성립하지 않습니다.

출력 가격 기준으로만 보면 Grok 4.1 Fast Reasoning($0.50)의 3배입니다. 이 부분이 핵심입니다 — 구글이 “비용 효율적”이라고 쓴 맥락은 Claude Haiku 4.5 Extended Thinking($5.00)이나 GPT-5 mini($2.00)와 비교한 기준이었습니다. 전 세대 모델 대비가 아니라는 점을 먼저 파악하고 봐야 합니다.

▲ 목차로 돌아가기

벤치마크 수치, 어떤 조건에서 나온 건지 봐야 합니다

공식 모델 카드에 나온 GPQA Diamond 86.9%, MMMU-Pro 76.8%, LiveCodeBench 72.0% — 이 수치들은 전부 “High 추론 모드(reasoning on, high)”에서 측정한 결과입니다. (출처: Gemini 3.1 Flash-Lite 모델 카드 Notes 항목)

💡 공식 모델 카드와 AI Studio 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — High 추론 모드를 켜면 토큰을 쓰는 방식 자체가 달라집니다. 사용자 한 명이 AI Studio에서 직접 테스트한 결과, 2.5 Flash-Lite로 6,980 출력 토큰이 나온 동일 프롬프트에서 3.1 Flash-Lite High 모드는 65,436 토큰이 나왔습니다. 약 9.4배 차이입니다. (출처: Reddit r/Bard, 사용자 ThomasMalloc 실측, 2026.03.03)

계산해보면 더 선명해집니다.

동일 작업 출력 토큰 비용 비교 (추정치)

▸ 2.5 Flash-Lite: 6,980 토큰 × $0.40/1M = 약 $0.0028

▸ 3.1 Flash-Lite (High): 65,436 토큰 × $1.50/1M = 약 $0.098

→ 실제 비용 약 35배 차이 (동일 작업 기준)

이 수치는 개별 테스트 결과 기준이라 작업 유형에 따라 다를 수 있습니다. 그러나 추론 토큰이 출력 토큰에 포함되는 구조상 High 모드에서 비용이 크게 오른다는 패턴 자체는 공식 가격 구조에서도 예측 가능한 결과입니다.

▲ 목차로 돌아가기

속도는 진짜입니다 — 단, 이 조건에서만

363 t/s라는 출력 속도는 실제입니다. 공식 모델 카드에 경쟁 모델과 나란히 게시된 수치입니다. GPT-5 mini(71 t/s)의 5배, Claude Haiku 4.5 Extended Thinking(108 t/s)의 약 3.4배입니다. (출처: Gemini 3.1 Flash-Lite 공식 모델 카드, 2026.03.03)

이 속도는 추론 모드를 끄거나 Minimal/Low로 낮춘 상태에서 유효합니다. High 추론을 켜는 순간 내부 사고 과정(thinking tokens)이 대량으로 발생하면서 체감 응답 시간이 길어집니다. 실사용자 테스트에서 High 모드 응답이 35초 이상 걸렸다는 사례가 나온 이유가 이것입니다. (출처: Reddit r/Bard, 2026.03.03)

솔직히 말하면, 번역·분류·요약처럼 단순 처리량이 많고 추론 깊이가 중요하지 않은 작업에서는 이 363 t/s 속도가 제대로 빛납니다. 경쟁사 대비 처리량이 2~5배 빠르고, 1M 토큰 컨텍스트 윈도우까지 지원하니까요.

▲ 목차로 돌아가기

실제로 써보면 토큰 비용이 달라지는 이유

💡 구글 공식 문서와 커뮤니티 실측 데이터를 교차해서 보니 이런 구조가 보였습니다 — Gemini 3.1 Flash-Lite는 추론 토큰이 출력 토큰 과금에 포함됩니다. “생각하는 시간”이 길어질수록 출력 비용이 바로 올라가는 구조입니다.

기존 모델들은 대부분 최종 답변 토큰만 과금합니다. 그런데 Gemini 3.1 Flash-Lite는 내부 추론 과정(thinking tokens)도 출력 토큰으로 집계됩니다. 출력 단가가 $1.50/1M이라는 숫자가 그래서 중요합니다. 추론을 길게 쓸수록 이 단가가 그대로 적용됩니다.

Minimal 또는 Low 추론 모드에서는 이 문제가 크게 줄어듭니다. 한 사용자 테스트에서 Minimal 모드 결과는 2.5 Flash-Lite 수준의 토큰 수를 유지했고 출력 품질도 유사했다는 평가가 나왔습니다. (출처: Reddit r/Bard, 사용자 ThomasMalloc, 2026.03.03) 즉, 추론 깊이가 필요 없는 작업에서는 Minimal 모드로 고정하는 게 비용 면에서 합리적입니다.

고민이 필요한 부분은 이겁니다. 추론 없이 쓰면 굳이 2.5 Flash-Lite 대비 2.5~3.75배 비쌀 이유가 없고, 추론을 켜면 비용이 예측 불가능하게 오릅니다. 이 딜레마가 현재 이 모델의 핵심 한계입니다.

▲ 목차로 돌아가기

경쟁 모델과 나란히 놓으면 보이는 것

모델 카드의 벤치마크를 경쟁 모델과 비교하면 어느 영역에서 강하고 어디서 밀리는지가 확인됩니다.

벤치마크 3.1 Flash-Lite 2.5 Flash GPT-5 mini Haiku 4.5
GPQA Diamond 86.9% 82.8% 82.3% 73.0%
MMMU-Pro (멀티모달) 76.8% 66.7% 74.1% 58.0%
LiveCodeBench (코딩) 72.0% 62.6% 80.4% 53.2%
MMMLU (다국어) 88.9% 86.6% 84.9% 83.0%
MRCR v2 (긴 문맥) 60.1% 54.3% 52.5% 35.3%

출처: Gemini 3.1 Flash-Lite 공식 모델 카드 (deepmind.google, 2026.03.03) / 전부 High 추론 모드 기준

과학 지식(GPQA Diamond), 멀티모달 추론(MMMU-Pro), 다국어(MMMLU), 긴 문맥(MRCR v2) — 이 4가지에서 이 가격대 모델 중 1위입니다. 코딩(LiveCodeBench)은 GPT-5 mini에 밀립니다. 이 부분은 공식 문서에서 별도 이유를 밝히지 않았습니다.

멀티모달 성능이 눈에 띕니다. Video-MMMU(비디오 이해)에서도 84.8%로 동급 모델 중 1위입니다. 이미지·오디오·비디오 입력을 모두 받으면서도 GPT-5 mini는 비디오를 지원하지 않습니다. 멀티모달이 필요한 파이프라인에서는 경쟁력이 확실합니다.

▲ 목차로 돌아가기

이 모델이 진짜 어울리는 작업, 안 어울리는 작업

수치를 다 보고 나면 어느 상황에서 선택해야 하는지 방향이 잡힙니다. 이건 제 판단입니다.

✅ 이런 작업엔 맞습니다

  • 멀티모달 분류·태깅: 이미지·비디오·오디오를 동시에 받아야 하는 대량 처리 파이프라인. 동급에서 GPT-5 mini는 비디오 미지원. (출처: Artificial Analysis 비교표, 2026.03)
  • 다국어 번역·요약: MMMLU 88.9%는 경쟁 모델 중 1위. 추론을 낮춰도 품질 유지되는 작업에 적합.
  • 긴 문맥 처리: 1M 토큰 컨텍스트 윈도우에서 128k 평균 MRCR v2 60.1%. GPT-5 mini는 1M 미지원.

❌ 이런 작업엔 안 맞습니다

  • 비용 최우선 대량 처리: 동일 속도에 훨씬 싼 2.5 Flash-Lite가 이미 있습니다.
  • 복잡 코딩 에이전트: LiveCodeBench 72% vs GPT-5 mini 80.4%. 코딩 집중 파이프라인이라면 GPT-5 mini가 낫습니다.
  • High 추론 모드로 쓰는 JSON 구조화 작업: 추론 토큰이 최대 출력 한도(65K)까지 차오르는 사례가 보고됐습니다. (출처: Reddit r/Bard, 2026.03.03)

결론적으로 이 모델은 Claude Haiku 4.5 ET보다 성능이 높고 훨씬 싸지만, Grok 4.1 Fast Reasoning이나 2.5 Flash 대비 가성비가 명확하지 않습니다. “출력 $1.50″이라는 단가를 먼저 인지하고 들어가야 예산 계획이 맞습니다.

▲ 목차로 돌아가기

Q&A

Q. Gemini 3.1 Flash-Lite는 현재 정식 출시됐나요?

아직 공개 프리뷰 상태입니다. 모델 ID는 gemini-3.1-flash-lite-preview이며 Vertex AI와 Google AI Studio에서 사용 가능합니다. 정식 출시(GA) 시점은 아직 공개되지 않았습니다. (출처: Vertex AI 공식 문서, 2026.03.15 기준)

Q. 2.5 Flash-Lite와 비교하면 무조건 3.1 Flash-Lite가 낫나요?

성능은 전반적으로 향상됐지만, 비용은 입력 2.5배·출력 3.75배 높아졌습니다. 추론 없이 빠른 처리만 필요한 작업이라면 2.5 Flash-Lite가 가성비 면에서 더 유리합니다. 멀티모달이나 긴 문맥 정확도가 중요한 작업은 3.1 쪽이 맞습니다.

Q. 벤치마크 수치를 그대로 믿어도 되나요?

공식 모델 카드의 수치는 High 추론 모드 기준입니다. 실제 API 사용에서는 추론 모드 설정에 따라 성능과 비용이 크게 달라집니다. Minimal 모드에서는 벤치마크 수치보다 낮아질 수 있습니다.

Q. Google AI Studio에서 무료로 테스트할 수 있나요?

네, Google AI Studio에서 프리뷰 모델을 무료로 사용해볼 수 있습니다. API 키 발급 후 gemini-3.1-flash-lite-preview 모델을 선택하면 됩니다. 단, 무료 사용 한도가 있으며 초과 시 유료로 전환됩니다.

Q. 이 모델이 Gemini Live와 연동될 가능성이 있나요?

공식 발표에서 Gemini Live API 지원이 명시돼 있습니다. 커뮤니티에서는 현재 Gemini Live가 2.5 Flash 기반인데, 속도·성능 면에서 3.1 Flash-Lite로 업그레이드될 가능성이 있다는 분석이 나왔습니다. 구글이 공식 발표를 내놓지 않은 부분입니다. (참고: Reddit r/Bard, 사용자 asteria99, 2026.03.03)

▲ 목차로 돌아가기

마치며 — 총평

Gemini 3.1 Flash-Lite는 이름대로 “Lite”이지만, 만들어진 방식은 Pro급 베이스에서 가져왔습니다. 멀티모달 처리 능력과 다국어 정확도는 동급에서 확실히 앞섭니다. 속도도 진짜입니다.

다만 “비용 효율적”이라는 표현은 어디와 비교하느냐에 달려 있습니다. 전 세대 모델(2.5 Flash-Lite)과 비교하면 2~4배 비쌉니다. 추론 모드를 High로 올리면 예측 불가능한 토큰 폭증이 생깁니다. 이건 현재 프리뷰 단계의 한계일 수 있고, GA 이후 개선될 수도 있습니다.

지금 당장 써볼 이유가 있는 팀은 이미지·비디오·오디오를 동시에 받아 분류·번역해야 하는 파이프라인, 또는 긴 문맥 정확도가 중요한 곳입니다. 단순 텍스트 처리량 최적화가 목표라면 아직은 2.5 Flash-Lite가 더 합리적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Gemini 3.1 Flash-Lite 공식 모델 카드 — deepmind.google/models/model-cards/gemini-3-1-flash-lite
  2. Vertex AI Gemini 3.1 Flash-Lite 공식 문서 — docs.cloud.google.com/vertex-ai/…/3-1-flash-lite
  3. Google Cloud Vertex AI Pricing — docs.cloud.google.com/vertex-ai/generative-ai/pricing
  4. Gemini 3.1 Pro 공식 블로그 (2026.02.19) — blog.google/…gemini-3-1-pro
  5. Artificial Analysis — Gemini 3.1 Flash-Lite Preview 비교 — artificialanalysis.ai

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 gemini-3.1-flash-lite-preview 기준(2026.03.03)이며, GA 출시 후 가격·스펙이 달라질 수 있습니다. 본 포스팅은 정보 제공 목적으로 작성되었으며 투자·구매 결정의 근거로 활용 시 반드시 공식 문서를 최종 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기