Gemini 3.1 Flash-Lite, 수치 3개로 직접 확인했습니다

Published on

in

Gemini 3.1 Flash-Lite, 수치 3개로 직접 확인했습니다

2026.03.03 출시 기준
Preview 상태
gemini-3.1-flash-lite-preview 기준

Gemini 3.1 Flash-Lite, 수치 3개로 직접 확인했습니다

“싸고 빠른 모델”이라는 홍보 문구, 공식 발표문과 실측 데이터를 같이 놓고 보니 생각보다 복잡한 그림이 나왔습니다. 결론부터 말씀드리면 — 입력 가격은 맞는데, 출력 가격과 코딩 성능은 다른 이야기입니다.

363 t/s
출력 속도 (Artificial Analysis)
$1.50/M
출력 토큰 단가
72.0%
LiveCodeBench 코딩 점수

Gemini 3.1 Flash-Lite가 뭐길래 화제인가

2026년 3월 3일, Google이 Gemini 3.1 Flash-Lite를 발표했습니다. 이름만 보면 “Flash보다 더 가벼운 버전” 정도로 읽히는데, 실제로는 Gemini 3 시리즈 안에서 비용 효율과 속도를 최우선으로 설계한 API 전용 모델입니다. (출처: Google DeepMind 공식 모델 페이지, 2026.03.03)

포지셔닝이 꽤 명확합니다. 번역, 콘텐츠 분류, 대량 데이터 추출처럼 하루에도 수백만 건씩 돌아가는 반복 작업을 타깃으로 만들었습니다. Gemini API(Google AI Studio)와 Vertex AI에서 Preview 상태로 제공 중이고, 현재 모델 코드는 gemini-3.1-flash-lite-preview입니다. (출처: Google AI Developer Docs, 2026.03.18 업데이트)

1M 토큰 입력 컨텍스트를 지원하고, 텍스트·이미지·비디오·오디오·PDF를 입력으로 받습니다. 출력은 텍스트만 가능합니다. Live API와 Computer Use는 지원하지 않습니다. — 멀티모달 입력은 되지만, 실시간 대화나 PC 조작 같은 고급 기능은 상위 모델의 영역입니다.

▲ 목차로 돌아가기


입력 가격은 저렴하지만, 출력 가격이 다릅니다

💡 공식 발표문과 제3자 실측 데이터를 함께 놓고 보니, 같은 “가성비 모델” 안에서도 출력 단가 격차가 꽤 크게 벌어졌습니다.

Gemini 3.1 Flash-Lite의 공식 가격은 입력 토큰 $0.25/1M, 출력 토큰 $1.50/1M입니다. (출처: Google 공식 블로그 & Vertex AI 문서, 2026.03.03) 입력 가격만 놓고 보면 GPT-5 mini($0.25/M)와 동일하고, Gemini 3 Flash Preview($0.50/M)의 절반입니다. — 대량 처리 워크로드에서 입력 비용이 절반으로 줄어든다는 뜻입니다.

문제는 출력 토큰 가격입니다. 같은 시기에 출시된 경쟁 모델들과 직접 비교하면 그림이 달라집니다.

모델 입력 $/1M 출력 $/1M 출처
Gemini 3.1 Flash-Lite $0.25 $1.50 Google AI
Grok 4.1 Fast $0.20 $0.50 xAI
Gemini 2.5 Flash-Lite $0.10 $0.40 Google AI
Qwen 3 Turbo $0.05 $0.20 Alibaba Cloud
GPT-5 mini $0.25 $2.00 OpenAI

Artificial Analysis 실측 평가에서도 Gemini 3.1 Flash-Lite의 출력 토큰 가격이 “비교 모델 평균($0.90/M)을 웃도는 수준”으로 평가됐습니다. (출처: Artificial Analysis 벤치마크 페이지, 2026.03) — 입력만 따지면 저렴하지만, 출력이 긴 작업이라면 단순 계산이 달라집니다.

또 Artificial Analysis가 실제로 Intelligence Index 평가를 돌렸을 때 Flash-Lite가 생성한 토큰 수는 5,300만 개로, 같은 평가 기준 평균(2,000만 개)의 2.65배였습니다. 더 많이 말한다는 뜻 — 출력 토큰이 많이 나올수록 $1.50/M 단가의 무게가 실제 청구서에서 더 크게 느껴집니다.

▲ 목차로 돌아가기


속도 363 t/s — 이 수치가 실제로 의미하는 것

Google 공식 발표문에서 Flash-Lite의 출력 속도로 내세운 수치는 363 tokens/sec입니다. (출처: Google 공식 블로그, 2026.03.03) 이 속도가 얼마나 빠른 건지 비교 기준이 없으면 체감이 안 됩니다.

같은 벤치마크 표에 나온 경쟁 모델을 기준으로 보면 — Claude 4.5 Haiku 108 t/s, GPT-5 mini 71 t/s, Grok 4.1 Fast 145 t/s입니다. Flash-Lite는 GPT-5 mini 대비 약 5.1배 빠르고, Claude Haiku 대비 3.4배 빠릅니다. — 실시간 스트리밍 응답이 필요한 서비스에서 “끊김 없이 흐르는 텍스트” 경험을 만드는 데 이 격차가 실질적으로 체감됩니다.

다만 이 수치는 Artificial Analysis 실측에서 233 t/s로 나왔습니다. (출처: Artificial Analysis 모델 페이지, 2026.03) 공식 발표의 363과 차이가 있는데, 공식 발표는 이상적 조건에서 측정한 수치이고 실측은 일반적인 API 호출 환경 기준입니다. 그럼에도 233 t/s는 경쟁 모델 평균을 크게 웃도는 수준입니다. — 빠른 건 사실이지만, 발표 수치 그대로 기대하면 차이를 느낄 수 있습니다.

속도의 실질적 가치는 Latitude 사례에서도 확인됩니다. Latitude의 AI 팀은 Flash-Lite 도입 후 “이전 모델 대비 성공률 20% 향상, 추론 시간 60% 단축”을 보고했습니다. (출처: Google 공식 블로그 인용 사례, 2026.03.03) — 단순 속도 수치가 아니라, 실제 프로덕션 파이프라인에서 사용자 경험으로 이어진 사례입니다.

▲ 목차로 돌아가기


코딩에 쓰면 안 되는 이유가 벤치마크에 있습니다

💡 구글이 “코딩 등 복잡한 작업에도 쓸 수 있다”고 홍보하는데, 같은 발표 표 안에 코딩 성능이 뒤처지는 수치가 함께 있습니다.

Google은 Flash-Lite를 소개하면서 LiveCodeBench 점수 72.0%를 강조했습니다. (출처: Google DeepMind 공식 벤치마크 표, 2026.03.03) 이 수치만 보면 나쁘지 않습니다. 문제는 같은 표에 있는 GPT-5 mini가 80.4%라는 점입니다.

두 모델의 입력 가격은 동일하게 $0.25/M입니다. 코드 생성 성능에서 8.4%p 차이가 나는데 가격이 같다는 것 — 코딩 위주 사용이라면 GPT-5 mini 쪽이 수치상으로 유리합니다. 실제로 Reddit에서 Flash-Lite를 코딩에 써본 사용자들은 “기본적인 앱도 못 만든다”, “2.5 Flash가 훨씬 나았는데 없애버렸다”는 반응이 나왔습니다. (출처: r/GoogleAIStudio 커뮤니티, 2026.03.05)

공식 문서에서도 Flash-Lite의 권장 사용 시나리오로 번역, 음성 전사, 데이터 추출, 문서 요약, 경량 에이전트 라우팅을 제시합니다. (출처: Google AI Developer Docs, 2026.03.18) 코딩 생성은 예시에 없습니다. — 같은 가격이면 코딩은 GPT-5 mini, 멀티모달 처리와 대량 분류는 Flash-Lite가 더 맞는 선택입니다.

▲ 목차로 돌아가기


Thinking Levels — 소형 모델이 추론 모드를 가졌을 때

Flash-Lite에서 가장 눈길을 끄는 기능 중 하나는 Thinking Levels(사고 수준 조절)입니다. 간단한 분류 작업에서는 thinking을 끄거나 낮추고, 복잡한 대시보드 생성에서는 높이는 식으로 모델 내부 추론량을 API 파라미터로 제어할 수 있습니다. (출처: Google 공식 블로그 & Google AI Developer Docs, 2026.03.03)

공식 문서의 코드 예시를 직접 보면, thinking_level="high"로 설정하면 더 깊은 추론 후 응답을 내놓고, thinking_level="none"으로 설정하면 즉각 응답합니다. 이 기능이 사실상 Flash-Lite를 “경우에 따라 추론 모델처럼 쓸 수 있는 소형 모델”로 만들어 줍니다. — 비용 대비 유연성이 늘어난 구조입니다.

다만 thinking 레벨을 높일수록 출력 토큰이 더 많이 나올 가능성이 있습니다. Artificial Analysis 실측에서 이미 Flash-Lite가 평균 대비 2.65배 많은 토큰을 생성한다고 확인된 점을 감안하면 — thinking high 설정 시 출력 비용은 직접 테스트로 사전에 측정해보는 것이 안전합니다.

▲ 목차로 돌아가기


이 모델이 실제로 유리한 상황 3가지

💡 벤치마크와 실제 도입 사례를 함께 놓고 보니, Flash-Lite가 빛나는 구간이 꽤 좁고 명확하게 정해집니다.

① 멀티모달 대량 분류 — 이미지·영상이 섞인 파이프라인

MMMU-Pro(멀티모달 이해·추론) 76.8%, Video-MMMU(영상 지식 습득) 84.8%로 같은 가격대 경쟁 모델을 앞섭니다. (출처: Google DeepMind 공식 벤치마크 표, 2026.03.03) 패션 플랫폼 Whering은 Flash-Lite 도입 후 상품 태깅 일관성 100%를 달성했다고 밝혔습니다. — 이미지가 대량으로 들어오는 분류 파이프라인에 맞습니다.

② 다국어 처리 — MMMLU 88.9%로 최상위권

MMMLU(다국어 Q&A) 88.9%로 비교 표 내 최고 점수를 기록했습니다. (출처: Google DeepMind 공식 벤치마크 표, 2026.03.03) 글로벌 플랫폼에서 여러 언어로 된 고객 메시지를 실시간 번역·분류하는 용도에 잘 맞습니다. — 다국어 처리량이 많을수록 입력 비용 절감 효과가 커집니다.

③ 모델 라우터 — Flash-Lite가 자기 자신을 분류기로 쓸 때

공식 문서에서 소개하는 패턴 중 하나가 “Flash-Lite를 쿼리 복잡도 분류기로 써서 Flash나 Pro로 라우팅”하는 구조입니다. (출처: Google AI Developer Docs, 2026.03.18) 오픈소스 Gemini CLI도 이 방식으로 Flash-Lite를 라우터로 씁니다. — HubX 사례에서 94% 인텐트 라우팅 정확도와 10초 이내 응답이 확인됐습니다. (출처: Google 공식 블로그 인용 사례, 2026.03.03)

▲ 목차로 돌아가기


Q&A

Q. Gemini 3.1 Flash-Lite는 무료로 쓸 수 있나요?
Google AI Studio에서 API 키를 발급받아 테스트는 무료로 할 수 있습니다. 프로덕션 규모로 쓰면 토큰 단위로 과금됩니다. 현재 Preview 상태이므로 GA 전환 후 가격이 변경될 수 있습니다. (출처: Google AI Developer Docs, 2026.03.18)
Q. Gemini 3.1 Flash-Lite와 Gemini 3 Flash는 어떻게 다른가요?
Q. Thinking Levels를 쓰면 비용이 더 나오나요?
Thinking 과정이 추가 출력 토큰으로 집계될 수 있습니다. 공식 문서에서 별도로 내부 추론 토큰 과금 구조를 명시하지 않았지만, thinking 레벨을 높일수록 응답 길이가 늘어나는 구조입니다. 프로덕션 적용 전 소규모 테스트로 직접 토큰 수를 측정해보는 것이 안전합니다.
Q. Gemini 3.1 Flash-Lite는 한국어 처리에도 쓸 수 있나요?
MMMLU(다국어 Q&A) 88.9% 점수로 다국어 처리 능력이 검증됐습니다. 한국어를 포함한 다국어 환경에서 번역·분류 작업에 적합합니다. 다만 한국어 특화 벤치마크 결과는 공식 문서에서 별도로 제공되지 않았습니다.
Q. 지금 당장 프로덕션에 써도 될까요?
현재 Preview 상태입니다. Google이 실제 피드백을 수집해 GA 전환 전에 성능과 안전성을 조정하는 단계입니다. 프로덕션 의존도가 높은 서비스에 곧바로 연결하기보다는, 병렬로 테스트하면서 GA 전환 시점을 확인하는 방식을 권장합니다. (출처: Google AI Developer Docs, 2026.03.18)

▲ 목차로 돌아가기


마치며

Gemini 3.1 Flash-Lite를 수치로 따져보면 세 가지 결론이 나옵니다. 속도는 경쟁 모델 최상위 수준이고, 멀티모달 처리와 다국어 분류에서 같은 가격대를 앞서고, 코딩은 같은 입력 가격의 GPT-5 mini보다 뒤집니다. 그리고 출력 토큰 가격은 “저렴한 모델”이라는 이름에서 기대하는 것보다 비쌉니다.

솔직히 말하면, 이 모델이 빛나는 구간은 꽤 뚜렷합니다. 하루에 수백만 개의 이미지·텍스트·음성 데이터를 분류하거나 번역하는 파이프라인, 혹은 더 무거운 모델로 보낼지 말지를 판단하는 라우터 역할에서는 잘 맞습니다. 반대로 코딩 생성이나 출력이 긴 창작 작업에는 애초에 설계 목적이 다릅니다.

Preview 딱지가 붙어 있는 만큼, GA 전환 시점에 가격이나 기능이 달라질 수 있습니다. 지금 테스트하면서 자기 워크로드에 맞는지 직접 확인해보는 게 가장 정확한 방법입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google 공식 블로그 — Gemini 3.1 Flash-Lite: Built for intelligence at scale (blog.google)
  2. Google DeepMind — Gemini Flash-Lite 모델 페이지 (deepmind.google)
  3. Google AI Developer Docs — Gemini 3.1 Flash-Lite Preview 공식 문서 (ai.google.dev)
  4. Artificial Analysis — Gemini 3.1 Flash-Lite Preview 실측 벤치마크 (artificialanalysis.ai)
  5. VentureBeat — Google releases Gemini 3.1 Flash Lite at 1/8th the cost of Pro (venturebeat.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash-Lite는 현재 Preview 상태이므로 GA 전환 시 가격, 기능, 성능 수치가 달라질 수 있습니다. 본문 내 모든 수치는 2026.03.28 기준 공식 문서 및 제3자 실측 데이터를 기반으로 작성되었습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기