Gemini 3.1 Flash-Lite, 4가지 수치로 직접 따져봤습니다

Published on

in

Gemini 3.1 Flash-Lite, 4가지 수치로 직접 따져봤습니다

2026.03.26 기준 / gemini-3.1-flash-lite-preview

Gemini 3.1 Flash-Lite, 4가지 수치로 직접 따져봤습니다

입력 토큰 100만 개당 $0.25. 가격만 보면 솔깃합니다. 그런데 공식 모델 카드를 꺼내 놓고 경쟁 모델과 숫자를 나란히 세워 보면 생각보다 복잡한 그림이 나옵니다. 빠른 핵심부터 짚겠습니다.

출력 속도 363 tokens/s
GPQA Diamond 86.9%
컨텍스트 1M 토큰
Thinking 지원

Flash-Lite가 뭔지 — 먼저 구조부터

2026년 3월 3일, 구글이 Gemini 3 시리즈의 막내 격인 Gemini 3.1 Flash-Lite를 공식 공개했습니다. (출처: Google 공식 블로그, 2026.03.03) 이름에 “Lite”가 붙어 있어서 최소 스펙 모델처럼 들리지만, 공식 모델 카드에는 “Gemini 3 Pro의 아키텍처를 기반으로 구축되었다”고 명시되어 있습니다.

💡 공식 모델 카드와 실제 배포 흐름을 같이 놓고 보니 이런 구조가 보였습니다

Flash-Lite는 “Pro 아키텍처 → Flash → Flash-Lite” 순으로 증류(distillation)된 모델이 아니라, Pro의 구조를 그대로 가져오되 고빈도·저지연 워크로드에 최적화한 별도 최적화 모델입니다. 단순히 기능을 빼낸 ‘다운그레이드 버전’이 아닌 셈입니다. (출처: Google DeepMind 모델 카드, 2026.03.03)

현재 Google AI Studio와 Vertex AI에서 프리뷰(Preview) 상태로 제공 중입니다. 아직 정식 안정(Stable) 버전이 아니라는 점이 나중에 중요해집니다 — 이건 뒤에서 따로 설명합니다.

▲ 목차로 돌아가기

속도와 가격, 숫자로 보면 이렇습니다

공식 발표 수치와 DeepMind 모델 카드 벤치마크(2026.03.03)를 기준으로 직접 정리한 표입니다.

모델 입력 가격
($/1M)
출력 가격
($/1M)
출력 속도
(tokens/s)
GPQA Diamond
Gemini 3.1 Flash-Lite $0.25 $1.50 363 86.9%
Gemini 2.5 Flash-Lite $0.10 $0.40 366 66.7%
GPT-5 mini (High) $0.25 $2.00 71 82.3%
Claude 4.5 Haiku (ET) $1.00 $5.00 108 73.0%
Grok 4.1 Fast $0.20 $0.50 145 84.3%

출처: Google DeepMind Gemini 3.1 Flash-Lite 모델 카드, 2026.03.03 (deepmind.google/models/model-cards/gemini-3-1-flash-lite)

여기서 눈에 띄는 건 출력 속도입니다. Flash-Lite는 초당 363 토큰을 출력하는데, 이는 GPT-5 mini(71 tokens/s)보다 약 5배 빠릅니다. 실시간 챗봇이나 스트리밍 응답이 중요한 서비스라면 이 차이가 체감으로 바로 옵니다.

반면 출력 가격에서는 이야기가 달라집니다. Gemini 3.1 Flash-Lite의 출력 가격은 $1.50/1M으로, 같은 입력 가격($0.25)인 GPT-5 mini의 $2.00/1M보다는 낮지만, Grok 4.1 Fast($0.50/1M)나 Gemini 2.5 Flash-Lite($0.40/1M)와 비교하면 3~4배 비쌉니다. 출력이 긴 작업일수록 선택 기준이 달라집니다.

▲ 목차로 돌아가기

“Lite니까 성능이 낮겠지”가 틀린 이유

솔직히 처음엔 저도 “Lite면 그냥 가벼운 거 아닌가”라고 생각했습니다. 막상 공식 벤치마크 수치를 꺼내 보면 다릅니다. GPQA Diamond 86.9% — 대학원 수준의 과학 문제를 푸는 벤치마크입니다.

💡 벤치마크 수치를 경쟁 모델과 나란히 놓고 보니 이런 역전이 보였습니다

Claude 4.5 Haiku Extended Thinking의 GPQA Diamond 점수는 73.0%, GPT-5 mini High는 82.3%입니다. Flash-Lite의 86.9%는 이 둘보다 높습니다. “Lite”라는 이름이 붙은 모델이 같은 등급 경쟁 모델들을 추론 벤치마크에서 앞서는 겁니다. (출처: Google DeepMind 모델 카드, 2026.03.03)

다국어 성능(MMMLU)도 88.9%로 경쟁 모델 중 가장 높습니다. 한국어 포함 다국어 처리 파이프라인에서 이 수치는 의미 있습니다. 단, 코드 생성(LiveCodeBench) 72.0%에서는 GPT-5 mini(80.4%)에 밀립니다. 복잡한 코딩 작업이라면 이 격차를 무시하기 어렵습니다.

Video-MMMU(영상 이해) 84.8%도 경쟁 모델 최상위입니다. 영상·멀티모달 파이프라인에 적합한 이유가 수치로 나옵니다. 단순히 “저렴한 모델”이 아니라, 특정 작업에서는 더 비싼 모델보다 성능이 높다는 게 핵심입니다.

▲ 목차로 돌아가기

Thinking 모드를 HIGH로 켜면 달라지는 것

Flash-Lite에는 Thinking 기능이 탑재되어 있습니다. 공식 개발자 문서(ai.google.dev, 2026.03.18)에는 “thinking_level”을 none / low / medium / high로 설정할 수 있다고 나옵니다. 이 부분을 잘 이해하지 못하면 요금 폭탄으로 이어질 수 있습니다.

⚠️ 실사용에서 확인된 주의 포인트

Reddit 커뮤니티(r/Bard, r/GeminiAI, 2026.03.03~05) 사용자들 사이에서 Thinking HIGH 설정 시 토큰 소모가 급격히 올라간다는 보고가 나왔습니다. 구글이 공식 답변을 내놓지 않은 부분이지만, 내부 추론 토큰이 출력 토큰에 합산되는 구조라면 $1.50/1M이라는 기본 단가가 그대로 적용됩니다.

직접 계산해 보면 이렇습니다. 10만 토큰짜리 복잡한 요청에 Thinking HIGH를 적용하면 내부 추론 토큰이 최대 수만 개 추가될 수 있습니다. 출력 토큰 3만 개 × $1.50/1M = $0.045. 작게 보이지만 하루 1만 건 처리하면 월 $13.5이 추론 토큰에만 추가됩니다. 고빈도 파이프라인에서 Thinking을 DEFAULT로 켜 두면 예상보다 비용이 나옵니다.

결론부터 말하면, 번역·분류·태깅처럼 단순 반복 작업은 Thinking 없이, 복잡한 추론이 필요한 요청만 선택적으로 Thinking HIGH를 쓰는 게 맞습니다. 공식 개발자 가이드도 “특정 프롬프트에 할당된 컴퓨팅 자원을 동적으로 조절할 수 있게 설계했다”고 설명합니다.

▲ 목차로 돌아가기

Free Tier로 쓸 수 있는지 — 현실적인 한도

구글 공식 API 한도 문서(ai.google.dev/gemini-api/docs/rate-limits)를 확인하면 Gemini 3.1 Flash-Lite는 아직 Preview 모델이라 Free Tier 한도가 “Limited”로만 표시되어 있습니다. 안정 모델(2.5 Flash-Lite: 15 RPM / 1,000 RPD)처럼 명확한 숫자가 공개되지 않았습니다.

💡 무료로 쓸 수 있다는 말과 무료 한도가 공개됐다는 말은 다릅니다

2025년 12월, 구글이 예고 없이 Free Tier 한도를 50~92% 삭감했고 수천 명의 개발자 프로젝트가 중단됐습니다. (출처: aifreeapi.com, 2026.03.17) Preview 상태 모델은 그보다 더 유동적입니다. 프로덕션 워크로드에 Flash-Lite Preview를 무료 한도만 믿고 올리는 건 위험합니다.

Preview 모델에는 또 다른 제약이 있습니다. 공식 문서 기준으로 컨텍스트 캐싱(Context Caching)과 Batch API는 지원되지만, Live API와 Computer Use는 미지원입니다. (출처: ai.google.dev, 2026.03.18) 안정 버전 전환 시 기능 목록이 달라질 수 있으므로 릴리스 노트를 주기적으로 확인해야 합니다.

Knowledge Cutoff은 2025년 1월입니다. (출처: Vertex AI 공식 문서, 2026.03.26) 최신 사건이나 실시간 데이터가 필요한 작업에는 Search Grounding(구글 검색 연동)을 함께 켜야 합니다. Search Grounding은 지원되지만 추가 요금이 발생합니다.

▲ 목차로 돌아가기

GPT-5 mini와 비교했을 때 놓치기 쉬운 지점

이 두 모델은 입력 가격이 $0.25/1M으로 동일합니다. 그래서 “성능이 비슷하면 Flash-Lite가 낫다”는 판단이 빠르게 나오는데, 막상 살펴보면 그렇지 않은 경우가 있습니다.

💡 입력 가격이 같다고 해서 전체 비용이 같다고 볼 수 없습니다

출력 가격: Flash-Lite $1.50 vs GPT-5 mini $2.00. Flash-Lite가 25% 저렴합니다. 그러나 코드 생성 작업(LiveCodeBench)에서 GPT-5 mini가 80.4% vs Flash-Lite 72.0%로 격차가 납니다. 코드를 많이 생성하는 파이프라인이라면 품질 재작업 비용을 포함한 실질 비용 비교가 필요합니다. (출처: Google DeepMind 모델 카드, 2026.03.03)

속도 면에서는 차이가 극명합니다. Flash-Lite 363 tokens/s vs GPT-5 mini 71 tokens/s — 약 5배 차이입니다. 실시간 스트리밍이 필요한 앱이라면 이 차이가 사용자 경험에 직접 영향을 줍니다.

정리하면 이렇습니다. 번역·분류·다국어 처리·멀티모달(영상·이미지)·실시간 응답이 중심이라면 Flash-Lite가 유리합니다. 복잡한 코드 생성·소프트웨어 디버깅이 주력 작업이라면 GPT-5 mini를 같이 테스트해 보는 게 낫습니다. 어느 쪽이 무조건 우위라는 결론보다, 작업 유형별로 나눠 쓰는 구조가 현실적입니다.

▲ 목차로 돌아가기

Q&A

Q1. 한국어 처리 성능이 괜찮은가요?
MMMLU(다국어 Q&A) 기준 88.9%로 경쟁 모델 중 가장 높습니다. 한국어 포함 다국어 번역·분류 파이프라인에서는 현재 같은 등급 모델 중 최상위 수준입니다. (출처: Google DeepMind 모델 카드, 2026.03.03)
Q2. 일반 Gemini 앱(gemini.google.com)에서도 쓸 수 있나요?
Flash-Lite는 개발자용 API(Google AI Studio, Vertex AI)로 제공되는 모델입니다. 일반 Gemini 앱 사용자 인터페이스에서는 직접 선택이 불가능합니다. API 키가 필요하며, Google AI Studio에서 즉시 테스트할 수 있습니다.
Q3. 컨텍스트 윈도우가 1M인데 실제로 다 활용 가능한가요?
공식 스펙은 1,048,576 토큰(약 1M)입니다. 단, MRCR v2 1M 벤치마크에서 12.3%로 매우 낮은 수치를 기록했습니다. 실제 100만 토큰 규모 컨텍스트에서는 정보 검색 정확도가 크게 떨어집니다. 128K 이하 범위에서 활용하는 게 실용적입니다. (출처: Google DeepMind 모델 카드, 2026.03.03)
Q4. 기존에 Gemini 2.5 Flash-Lite를 쓰던 사람이 지금 당장 교체해야 할까요?
성능 면에서는 3.1 Flash-Lite가 GPQA 기준 약 20%p 높지만, 가격은 입력 $0.10→$0.25, 출력 $0.40→$1.50으로 각각 2.5배·3.75배 올랐습니다. 또한 아직 Preview 상태라 안정성 보장이 다릅니다. 비용 여유가 있고 추론·다국어 성능이 중요한 워크로드라면 전환을 검토할 만하지만, 비용 최적화가 최우선이라면 서두를 이유가 없습니다.
Q5. 이미지·영상 입력은 어떻게 처리되나요?
텍스트, 이미지, 영상, 오디오(최대 8.4시간), PDF를 모두 입력으로 받습니다. 오디오 생성(Audio output)과 Live API, Computer Use는 지원하지 않습니다. (출처: ai.google.dev, 2026.03.18) 특히 Video-MMMU 84.8%는 경쟁 모델 최고 수준이라 영상 분류·요약 파이프라인에 적합합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash-Lite는 이름만 보고 판단하면 손해입니다. GPQA Diamond 86.9%, 출력 속도 363 tokens/s — 이 두 수치는 같은 가격대 경쟁 모델과 비교했을 때 분명한 강점입니다. 특히 다국어 처리, 영상 이해, 실시간 응답이 중요한 파이프라인에서는 충분히 유력한 선택지입니다.

다만 코드 생성은 GPT-5 mini에 뒤처지고, 출력 가격은 Grok 4.1 Fast나 Gemini 2.5 Flash-Lite보다 비쌉니다. Thinking HIGH 모드를 무분별하게 켜면 비용이 예상보다 늘어납니다. Free Tier 한도도 아직 “Limited”로만 표시되어 있어, 프로덕션 전에 반드시 유량 테스트를 돌려봐야 합니다.

기대했던 것과 달랐던 건 1M 컨텍스트 실성능입니다. 스펙 수치는 100만 토큰이지만 1M 범위 벤치마크에서 12.3%는 사실상 쓰기 어렵다는 신호입니다. 128K 이내에서 활용 설계를 잡는 게 현실적입니다.

Preview라는 딱지가 떼이고 Stable로 전환되면 지금보다 명확한 Free Tier 한도와 추가 기능이 붙을 가능성이 높습니다. 지금은 파이프라인 검토와 테스트 단계로 활용하고, 안정화 후 본격 전환을 고려하는 흐름이 가장 무난합니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Google 공식 블로그 — Gemini 3.1 Flash-Lite 출시 발표 (2026.03.03)
    https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
  2. Google DeepMind — Gemini 3.1 Flash-Lite 모델 카드 (2026.03.03)
    https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/
  3. Google AI for Developers — Gemini 3.1 Flash-Lite 개발자 가이드 (2026.03.18)
    https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-lite-preview
  4. Google for Developers Korea 블로그 — 3월 첫째 주 업데이트 (2026.03.06)
    https://developers-kr.googleblog.com/2026/03/weeklyupdate-week1.html


본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.03.26 기준 공식 문서를 바탕으로 작성되었습니다. 가격·스펙 변동 시 Google AI 공식 채널을 우선 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기