Gemini 3.1 Flash-Lite, 수치 4개로 직접 확인했습니다

Published on

in

Gemini 3.1 Flash-Lite, 수치 4개로 직접 확인했습니다

2026.03.03 출시 기준
gemini-3.1-flash-lite-preview
Vertex AI / Google AI Studio

Gemini 3.1 Flash-Lite, 수치 4개로 직접 확인했습니다

“Lite니까 그냥 가벼운 모델이겠지”라고 생각했는데, 공식 벤치마크를 꺼내놓고 보면 생각이 달라집니다. 이전 세대 주력 모델인 Gemini 2.5 Flash보다 특정 지표에서 오히려 앞서는 수치가 나왔습니다. 반면 출력 토큰 가격은 같은 등급 경쟁사 평균보다 67% 더 비쌉니다. 가격 표 한 줄만 보고 쓸지 말지 결정했다면, 손해 볼 수 있는 케이스가 생깁니다.

$0.25
입력 /1M 토큰
$1.50
출력 /1M 토큰
363 t/s
출력 속도
1M
컨텍스트 윈도우

Gemini 3.1 Flash-Lite가 나온 배경

2026년 3월 3일, 구글 딥마인드가 Gemini 3.1 Flash-Lite를 프리뷰로 공개했습니다. 공식 명칭은 gemini-3.1-flash-lite-preview이고, 현재 Google AI Studio와 Vertex AI에서 모두 사용할 수 있습니다. (출처: Google DeepMind 공식 블로그, 2026.03.03)

구글 딥마인드가 밝힌 포지셔닝은 “고용량 워크로드를 위한 가장 빠르고 비용 효율적인 Gemini 3 시리즈 모델”입니다. 쉽게 말하면, 대규모 번역·콘텐츠 분류·태깅처럼 건당 비용이 쌓이는 작업에 최적화한 모델입니다. Gemini 3 시리즈 중 가장 하위 등급이지만, 설계 기반은 Gemini 3 Pro를 그대로 가져왔습니다. 아키텍처 출처가 Pro라는 점이 나중에 벤치마크 수치를 설명하는 핵심이 됩니다.

이 모델의 훈련 데이터 지식 컷오프는 2025년 1월입니다. 2026년 3월 기준으로 약 14개월 전 데이터까지 학습했다는 뜻이고, 최신 사건이나 2025년 2월 이후 업데이트된 내용을 실시간으로 반영하지 않습니다. (출처: Vertex AI 공식 문서, 2026.03.21 업데이트)

▲ 목차로 돌아가기

Lite인데 이전 세대 주력 모델을 앞서는 이유

💡 공식 발표문과 벤치마크 표를 같이 놓고 보니 이런 차이가 보였습니다

구글은 “Gemini 3.1 시리즈”와 “Gemini 2.x 시리즈”를 세대 차이로 구분하고 있습니다. 같은 “Flash-Lite” 등급이라도 3.1이 2.5보다 더 최신 아키텍처를 씁니다. Lite라는 이름이 성능 하한을 의미하는 게 아니라, 그 세대 안에서 빠르고 가벼운 포지셔닝을 뜻한다는 걸 공식 표에서 직접 확인했습니다.

DeepMind 공식 모델 카드(2026.03.03)에 실린 벤치마크 비교표를 보면, Gemini 3.1 Flash-Lite는 같은 등급 경쟁 모델뿐 아니라 이전 세대 Gemini 2.5 Flash(더 큰 모델)보다 여러 지표에서 앞서는 수치를 기록했습니다. 구체적으로는 GPQA Diamond(과학 지식 추론) 86.9%, MMMU-Pro(멀티모달 이해력) 76.8%로 비교 모델 중 1위입니다. Gemini 2.5 Flash Dynamic은 같은 두 지표에서 각각 82.8%, 66.7%로 뒤처집니다. (출처: Google DeepMind Gemini 3.1 Flash-Lite 모델 카드, 2026.03)

이 수치가 실제로 의미하는 건 간단합니다. 이전 세대 주력 모델을 쓰던 개발자가 비용 절감을 이유로 3.1 Flash-Lite로 교체했을 때, 추론 품질이 오히려 올라갈 가능성이 생깁니다. 속도도 마찬가지입니다. Artificial Analysis 기준 출력 속도가 363 tokens/s인데, 2.5 Flash Dynamic은 249 tokens/s입니다. 46% 더 빠릅니다.

벤치마크 Gemini 3.1 Flash-Lite Gemini 2.5 Flash GPT-5 mini Claude 4.5 Haiku
GPQA Diamond 86.9% 82.8% 82.3% 73.0%
MMMU-Pro 76.8% 66.7% 74.1% 58.0%
Video-MMMU 84.8% 79.2% 82.5%
출력 속도(t/s) 363 249 71 108
LiveCodeBench 72.0% 62.6% 80.4% 53.2%

(출처: Google DeepMind Gemini 3.1 Flash-Lite 모델 카드, 2026.03.03)

▲ 목차로 돌아가기

출력 토큰 가격, 싸다는 말이 반만 맞습니다

💡 가격표 상단 한 줄만 보면 놓치는 부분이 여기에 있습니다

구글이 강조하는 $0.25/1M은 입력 토큰 가격입니다. 그런데 실제로 API 비용에서 더 많은 비중을 차지하는 건 출력 토큰입니다. Artificial Analysis의 분석에 따르면 동급 모델 출력 평균은 $0.90/1M인데, Gemini 3.1 Flash-Lite는 $1.50/1M입니다.

직접 계산해보면 차이가 명확합니다. 예를 들어 하루 100만 회 호출에 평균 500 출력 토큰이 발생하는 서비스라면, 하루 총 출력 토큰은 5억 개(500M)입니다. Gemini 3.1 Flash-Lite 기준 일일 출력 비용은 $750인데, Grok 4.1 Fast($0.50/1M 출력) 기준으로 계산하면 $250입니다. 같은 워크로드에서 하루 $500 차이, 한 달이면 $15,000 차이가 납니다. 출력 토큰이 많이 발생하는 구조라면 입력 가격만 보고 선택하면 예상보다 비용이 더 나옵니다. (출처: Artificial Analysis, 2026.03; Google Cloud Vertex AI 가격 문서, 2026.03.21)

반면 입력이 길고 출력은 짧은 작업—예를 들어 대량 문서 분류, 이미지 레이블링, 단답형 Q&A—에서는 $0.25/1M 입력 가격이 진짜 강점이 됩니다. 같은 등급에서 Gemini 2.5 Flash-Lite($0.10/1M)보다는 비싸지만, 성능 차이를 감안하면 합리적인 교환입니다. 어떤 작업인지에 따라 실제 적합한 모델이 달라집니다.

모델 입력 ($/1M) 출력 ($/1M) 출력 속도(t/s)
Gemini 3.1 Flash-Lite $0.25 $1.50 363
Gemini 2.5 Flash-Lite $0.10 $0.40 366
Grok 4.1 Fast $0.20 $0.50 145
GPT-5 mini $0.25 $2.00 71
Claude 4.5 Haiku $1.00 $5.00 108

(출처: Google DeepMind 모델 카드, 2026.03.03 / Artificial Analysis, 2026.03)

▲ 목차로 돌아가기

1M 컨텍스트, 꽂는다고 다 쓸 수 있는 건 아닙니다

💡 “1M 지원”이라는 스펙과 실제 성능 사이에서 공식 수치가 이렇게 갈립니다

공식 문서에는 1M 토큰 컨텍스트 윈도우를 지원한다고 나옵니다. 그런데 DeepMind 모델 카드에 실린 MRCR v2(8-needle) 롱컨텍스트 성능을 보면, 1M pointwise 점수는 12.3%입니다. 같은 테스트에서 Gemini 2.5 Flash Dynamic은 21.0%입니다. 지원은 하지만, 긴 문서 내 핵심 정보 추출 정확도는 더 높은 등급 모델이 훨씬 낫습니다.

128K 범위 테스트(MRCR v2, 128k average)에서는 60.1%로 비교 모델 중 가장 높습니다. 그런데 범위가 1M까지 늘어나는 순간 12.3%로 뚝 떨어집니다. 수치 차이를 해석하면 이렇습니다. 128K 이하 문서라면 Flash-Lite가 경쟁력 있지만, 책 한 권 이상 분량(약 70만 단어 이상)을 넣고 특정 문장을 찾는 용도라면 정확도 기대치를 낮춰야 합니다. (출처: Google DeepMind Gemini 3.1 Flash-Lite 모델 카드, 2026.03)

그리고 1M 컨텍스트를 실제로 쓰면 출력 토큰 수와 무관하게 입력 처리 비용도 커집니다. 토큰 100만 개 입력이면 $0.25입니다. 긴 문서를 반복적으로 처리하는 배치 작업이라면 컨텍스트 캐시 기능을 쓰는 게 비용 측면에서 훨씬 유리합니다. Vertex AI에서는 캐시 입력 가격이 $0.03/1M으로, 일반 입력의 약 12% 수준입니다. (출처: Google Cloud Vertex AI 가격 문서, 2026.03.21)

▲ 목차로 돌아가기

코딩 용도라면 수치를 먼저 보세요

코딩 작업에서 Flash-Lite의 한계가 가장 명확하게 드러납니다. LiveCodeBench 기준으로 Gemini 3.1 Flash-Lite는 72.0%인데, GPT-5 mini는 80.4%입니다. 8.4%p 차이인데, 실제 코드 생성 정확도로 치환하면 의미 있는 수치입니다. 100개 코드 문제 중 8개가 더 맞고 틀리는 차이이기 때문입니다. (출처: Google DeepMind 모델 카드, 2026.03.03)

반면 멀티모달 처리(이미지·동영상·오디오 이해)가 핵심인 작업이라면 Flash-Lite가 경쟁력이 다시 생깁니다. Video-MMMU 84.8%로 비교 모델 전체 중 가장 높고, MMMLU(다국어 Q&A)도 88.9%로 1위입니다. 텍스트 코딩 하나만 놓고 보면 GPT-5 mini가 우위지만, 이미지·영상 분류와 다국어 처리가 섞인 파이프라인이라면 Flash-Lite 쪽이 더 유리한 케이스가 생깁니다.

솔직히 말하면, AI Studio에서 직접 코드 생성 테스트를 몇 번 돌려봤을 때 단순한 함수 작성이나 SQL 쿼리 작성은 크게 부족하지 않았습니다. 다만 복잡한 알고리즘 구현이나 멀티파일 리팩터링처럼 추론 깊이가 필요한 경우엔 Thinking 모드를 켜야 안정적인 결과가 나왔습니다. Flash-Lite에도 AI Studio와 Vertex AI에서 Thinking Level 설정을 지원하는데, 켜면 응답 속도가 느려지고 토큰 소모가 늘어납니다.

▲ 목차로 돌아가기

Flex/Batch 요금제, 아직 모르는 분이 많습니다

💡 가격 문서를 끝까지 읽었더니 표 두 번째 항목에서 이게 나왔습니다

Vertex AI 가격 문서에는 Standard PayGo 외에 Flex/Batch 요금 항목이 별도로 있습니다. Gemini 3.1 Flash-Lite Flex/Batch 모드 기준 입력 가격은 $0.13/1M으로, Standard($0.25/1M)의 절반 수준입니다. 실시간 응답이 필요 없는 대량 처리 작업이라면 이 요금제를 적용하는 게 훨씬 유리합니다.

Flex/Batch 요금에서 출력 토큰도 $0.75/1M으로, Standard($1.50/1M)의 딱 절반입니다. 실시간 응답이 필요 없는 대량 번역·분류 파이프라인이라면 Flex/Batch로만 전환해도 비용이 50% 줄어든다는 계산이 나옵니다. 위에서 계산한 하루 출력 비용 $750은 Flex/Batch 기준으로 $375로 내려갑니다. (출처: Google Cloud Vertex AI 가격 문서, 2026.03.21)

이 부분이 아직 한국어 블로그에 거의 소개되지 않았습니다. 대부분의 글이 $0.25라는 입력 가격만 언급하고 끝내는데, Batch 모드를 모르면 실제로 낼 수 있는 최저 비용보다 2배 가까이 더 내는 셈이 됩니다. 단, Flex/Batch 모드는 응답 지연(수 초~수 분)이 발생할 수 있고, 실시간 챗봇 구조에는 적합하지 않습니다.

요금 유형 입력 ($/1M) 출력 ($/1M) 캐시 입력 ($/1M) 적합 용도
Standard PayGo $0.25 $1.50 $0.03 실시간 서비스
Flex / Batch $0.13 $0.75 $0.05 대량 배치 처리

(출처: Google Cloud Vertex AI 가격 문서, 2026.03.21)

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

Q1. Gemini 3.1 Flash-Lite는 지금 무료로 쓸 수 있나요?

Google AI Studio에서는 API 키 없이도 브라우저 인터페이스로 바로 테스트할 수 있습니다. API 호출 기준으로는 Google AI Studio의 무료 티어를 통해 일정 한도 내에서 무료 사용이 가능하고, 한도를 넘으면 Standard PayGo 요금이 적용됩니다. Vertex AI는 유료 구글 클라우드 계정이 필요합니다. (출처: Google AI Studio 공식 안내)

Q2. Gemini 2.5 Flash-Lite와 어떻게 다른가요?

가장 큰 차이는 아키텍처 세대입니다. 2.5 Flash-Lite는 Gemini 2.5 Pro 기반, 3.1 Flash-Lite는 Gemini 3 Pro 기반입니다. 추론·멀티모달 벤치마크에서 3.1이 확연히 앞서지만, 가격은 2.5 Flash-Lite($0.10/$0.40)가 훨씬 저렴합니다. 비용 최우선이면 2.5 Flash-Lite, 품질 우선이면 3.1 Flash-Lite가 맞습니다. (출처: DeepMind 모델 카드, 2026.03)

Q3. 한국어 성능은 어느 정도인가요?

MMMLU(다국어 Q&A) 기준 88.9%로 비교 모델 중 가장 높습니다. 공식 지원 언어 목록에도 한국어가 포함되어 있습니다. 다만 지식 컷오프가 2025년 1월이라, 그 이후 한국 사건·법령·정책 변경 등은 반영되지 않습니다. (출처: DeepMind 모델 카드, Vertex AI 공식 문서)

Q4. Thinking 모드를 켜면 비용이 얼마나 더 드나요?

사고 토큰(thinking tokens)은 별도 출력 토큰으로 청구됩니다. 복잡한 추론 문제일수록 사고 토큰이 많아져 비용이 크게 오를 수 있습니다. 구글 공식 문서에서 Thinking 토큰 요금이 별도 항목으로 표기되어 있는지 확인 후 사용하는 걸 권장합니다. 단순 분류·번역 작업에는 Thinking 모드를 끄는 게 비용 측면에서 유리합니다. (출처: Vertex AI 공식 문서)

Q5. 현재 프리뷰 버전인데 정식 출시 후 가격이 바뀔 수 있나요?

그럴 수 있습니다. 구글의 이전 모델 출시 패턴을 보면, 프리뷰에서 GA(General Availability) 전환 시 가격이 일부 조정된 사례가 있습니다. 현재 공식 문서에 “프리뷰” 라벨이 붙어 있으며, 정식 출시 일정은 아직 공개되지 않았습니다. 비용이 중요한 프로덕션 서비스에 바로 적용하기보다, GA 전환 후 가격 확인 뒤 도입하는 게 안전합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash-Lite는 “저렴한 소형 모델”이라는 기대와 실제 수치 사이에 꽤 흥미로운 간격이 있습니다. 추론·멀티모달 지표에서는 이전 세대 주력 모델을 앞서면서도, 출력 토큰 단가는 같은 등급 경쟁사 평균보다 67% 높습니다. 코딩 하나만 보면 GPT-5 mini에 밀리고, 1M 컨텍스트에서의 롱컨텍스트 정확도는 등급이 높은 모델에 확연히 못 미칩니다.

결론부터 말씀드리면, 이미지·동영상 분류, 다국어 처리, 고빈도 배치 번역처럼 입력이 길고 멀티모달이 섞인 파이프라인에는 지금 당장 써볼 가치가 있습니다. 반면 복잡한 코딩이나 매우 긴 문서의 정밀한 정보 추출이 메인 목적이라면 다른 모델을 검토하는 편이 나을 것 같다는 게 솔직한 판단입니다. Flex/Batch 요금제까지 활용하면 가성비는 더 좋아집니다.

아직 프리뷰 버전이기 때문에 GA 전환 시 스펙이나 가격이 달라질 수 있습니다. 지금 테스트해보는 건 좋지만, 프로덕션 반영은 GA 이후 공식 발표를 확인하고 결정하는 게 맞습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google DeepMind — Gemini 3.1 Flash-Lite 공식 블로그 (blog.google, 2026.03.03)
  2. Google DeepMind — Gemini 3.1 Flash-Lite 모델 카드 (deepmind.google, 2026.03.03)
  3. Google Cloud — Vertex AI Generative AI 가격 문서 (cloud.google.com, 2026.03.21 기준)
  4. Google Cloud — Vertex AI Gemini 3.1 Flash-Lite 공식 사양 문서 (docs.cloud.google.com, 2026.03.21 기준)
  5. Artificial Analysis — Gemini 3.1 Flash-Lite Preview 성능 분석 (artificialanalysis.ai, 2026.03)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수록된 가격 및 벤치마크 수치는 2026년 3월 23일 기준 공식 자료를 바탕으로 하며, Google의 업데이트에 따라 달라질 수 있습니다. 최신 정보는 Google 공식 문서에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기