Gemini 3.1 Flash-Lite 써봤더니 예상과 달랐습니다

Published on

2026년 3월 21일

2026.03.03 출시 기준
gemini-3.1-flash-lite-preview
IT/AI

Gemini 3.1 Flash-Lite 써봤더니 예상과 달랐습니다

구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite, 헤드라인만 보면 답이 분명합니다.
초당 381.9 토큰에 입력 $0.25/1M, 출력 $1.50/1M.
그런데 실제로 수치를 전부 뜯어보면 기대와 다른 지점이 세 군데 있었습니다.
GA(정식 출시)도 아직 아니고, 이전 세대 모델이 여전히 더 싼 구간도 있습니다.
공식 발표문과 벤치마크 수치를 나란히 놓고 정리했습니다.

381.9

tok/s 출력 속도

86.9%

GPQA Diamond 점수

컨텍스트 윈도우

Preview

GA 미정 상태

Gemini 3.1 Flash-Lite, 어떤 모델인가

모델 ID는 gemini-3.1-flash-lite-preview이며, 지식 컷오프는 2025년 1월입니다. 입력으로 텍스트, 이미지, 오디오, 비디오, PDF를 받고 출력은 텍스트만 지원합니다. (출처: Vertex AI 공식 문서, 2026.03.15 기준)

구글이 공개적으로 내세운 용도는 대량 번역, 콘텐츠 모더레이션, UI 생성, 시뮬레이션입니다. 고빈도·저지연이 필요한 파이프라인 작업에 특화된 설계입니다.

▲ 목차로 돌아가기

속도 수치의 실제 의미 — 381 tok/s가 현장에서 느껴지는 방식

Artificial Analysis 벤치마크 기준으로 Gemini 3.1 Flash-Lite의 출력 속도는 초당 381.9 토큰입니다. 이전 세대인 Gemini 2.5 Flash가 232.3 tok/s였으니 64% 빠릅니다. (출처: Artificial Analysis, 2026.03.05 기준) 초당 381 토큰은 약 285 단어에 해당합니다.

💡 공식 발표와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

500단어 고객 응답을 생성한다고 가정하면, 2.5 Flash는 약 3.2초가 걸립니다. 3.1 Flash-Lite는 1.75초. 1회 호출 기준 차이는 1.5초 남짓입니다. 그런데 이 시스템이 시간당 10,000건을 처리한다면, 인프라 비용 계산이 완전히 달라집니다. 속도 차이가 사용자에게 직접 느껴지는 구간은 첫 토큰이 나오기까지의 지연(TTFT)입니다.

구글은 3.1 Flash-Lite의 TTFT(Time to First Token)가 2.5 Flash 대비 2.5배 빠르다고 밝혔습니다. (출처: Google DeepMind 공식 블로그, 2026.03.03) 사용자가 체감하는 “느리다/빠르다”는 TTFT로 결정됩니다. 전체 응답 시간이 아무리 빨라도 첫 토큰이 늦으면 인터페이스가 굳은 느낌이 납니다.

전체 오픈 모델 포함 속도 순위에서 3.1 Flash-Lite는 3위입니다. Mercury 2(768 tok/s), Granite 3.3 8B(438 tok/s)에 이어 세 번째로, 주요 클로즈드 모델 중에서는 가장 빠릅니다. (출처: Artificial Analysis 리더보드, 2026.03.05 기준)

▲ 목차로 돌아가기

Lite 모델인데 추론 점수가 이전 Flash보다 높은 이유

Lite 등급 모델에서 기대하기 어려운 수치가 있습니다. GPQA Diamond 점수가 86.9%입니다. 이 수치는 이전 세대 Flash 상위 라인인 Gemini 2.5 Flash를 넘어섭니다. Gemini 3.1 Flash-Lite의 Artificial Analysis 인텔리전스 인덱스 점수도 34로, 2.5 Flash(21)를 62% 앞섭니다. (출처: Artificial Analysis, Build Fast With AI, 2026.03.05)

💡 ‘Lite’라는 이름이 이번엔 성능 부족을 뜻하지 않습니다

통상적으로 Lite 모델은 성능을 낮추고 비용을 줄인 버전입니다. 그런데 3.1 Flash-Lite는 세대 전환으로 이전 Flash보다 높은 추론 점수를 받습니다. 가격을 낮추면서 더 높은 등급 모델의 성능을 일부 가져온 케이스입니다.

MMMU Pro(멀티모달 이해력 벤치마크)는 76.8%를 기록했습니다. Arena.ai 리더보드 Elo 점수는 1,432로 같은 티어 모델 중 선두입니다. (출처: Arena.ai 리더보드, 2026.03.05)

모델	GPQA Diamond	MMMU Pro	AA 인텔리전스	Arena Elo
Gemini 3.1 Flash-Lite	86.9%	76.8%	34	1,432
Gemini 2.5 Flash	~82%	~74%	21	—
Claude 4.5 Haiku	73.0%	—	—	—
Gemini 2.5 Flash-Lite	—	—	16	—

출처: Artificial Analysis, Arena.ai, llm-stats.com (2026.03.21 기준) / “~”는 근사값

이 수치는 단순히 “새 모델이라 더 좋다”는 말로 설명하기 어렵습니다. 세대 점프로 Lite 라인이 이전 Flash를 추월한 것은, 이 모델을 단순히 ‘절약용 모델’로 분류하면 안 된다는 뜻입니다.

▲ 목차로 돌아가기

가격이 가장 싸다는 건 절반만 맞습니다

3.1 Flash-Lite의 가격은 입력 $0.25/1M, 출력 $1.50/1M입니다. Gemini 2.5 Flash 대비 출력에서 40% 저렴합니다. (출처: Vertex AI 가격 페이지, 2026.03.21 기준) 경쟁 모델과 비교하면 Claude 4.5 Haiku의 출력 가격($5.00/1M)의 30%, GPT-5 mini($2.00/1M)의 75% 수준입니다. 같은 API 호출량이라면 비용이 훨씬 적게 쌓입니다.

⚠️ 기존 Gemini 2.5 Flash-Lite 사용자는 여기서 멈춰야 합니다

모델	입력 (/1M)	출력 (/1M)	블렌디드*
Gemini 3.1 Flash-Lite	$0.25	$1.50	$0.56
Gemini 2.5 Flash	$0.30	$2.50	$0.85
Gemini 2.5 Flash-Lite	$0.10	$0.40	$0.18
Claude 4.5 Haiku	$1.00	$5.00	$2.00
GPT-5 mini	$0.25	$2.00	$0.69

*블렌디드: 입출력 3:1 비율 기준 / 출처: Vertex AI 가격 페이지, 2026.03.21

수치가 보여주는 결론은 명확합니다. 비용만 본다면 2.5 Flash-Lite가 여전히 구글 라인업에서 가장 쌉니다. 3.1 Flash-Lite는 속도와 추론 품질을 동시에 올리면서 비용을 이전 Flash 대비 낮춘 모델이지, 모든 Gemini 모델보다 저렴한 건 아닙니다.

▲ 목차로 돌아가기

Thinking Levels — 하나의 모델로 두 가지 인프라를 대체하는 방식

3.1 Flash-Lite의 기능 중 헤드라인에 잘 안 나오는 게 있습니다. Thinking Levels가 출시 첫날부터 기본 기능으로 포함됩니다. Google AI Studio와 Vertex AI 양쪽 모두에서 사용할 수 있습니다. (출처: Google DeepMind 공식 블로그, 2026.03.03)

💡 두 개의 모델을 관리하던 구조가 하나로 줄어드는 맥락입니다

많은 팀이 프로덕션에서 “단순 작업용 싼 모델 + 복잡 작업용 비싼 모델” 조합을 쓰고, 이 라우팅 로직을 별도로 개발·관리합니다. 3.1 Flash-Lite는 동일 API 안에서 요청마다 사고 깊이를 조절할 수 있어, 이 구조를 단일 모델로 대체할 수 있습니다.

설정값은 세 단계입니다. OFF는 381 tok/s 최고 속도, 최저 비용으로 번역·분류·모더레이션에 씁니다. LOW는 폼 작성, 지침 이행, 대시보드 생성처럼 구조 파악이 필요한 작업에 적합합니다. HIGH는 다단계 추론, 코드 생성, 복잡한 데이터 분석 등에 씁니다.

Thinking Levels는 이전 Gemini 모델에서도 일부 지원됐지만, 베타 기능으로 따로 신청해야 하는 경우가 많았습니다. 3.1 Flash-Lite는 이를 기본 제공으로 전환했습니다. 하나의 모델·하나의 빌링 라인으로 두 가지 워크로드를 처리하면 아키텍처가 단순해지고 운영 비용도 줄어듭니다.

▲ 목차로 돌아가기

지금 바로 전환하면 안 되는 상황 두 가지

수치만 보면 전환하지 않을 이유가 없어 보입니다. 막상 들어가 보면 다릅니다. 3.1 Flash-Lite는 2026년 3월 기준 여전히 프리뷰 상태입니다. GA(정식 출시) 일정은 구글이 공개하지 않은 부분입니다. (출처: Build Fast With AI, 2026.03.05)

⚠️ 프리뷰에서 GA 전환 전, 이 두 가지를 확인하세요

SLA 없음: 프리뷰 기간에는 가용성 보장이 없습니다. 고객 응대 서비스처럼 다운타임이 비즈니스 손실로 직결되는 시스템에는 아직 적합하지 않습니다.
오디오 출력·Live API 미지원: 음성 에이전트나 실시간 스트리밍 멀티모달 앱은 여전히 Gemini 2.5 Flash가 필요합니다. 3.1 Flash-Lite는 텍스트 출력만 지원합니다. (출처: Vertex AI 공식 문서, 2026.03.15 기준)

또 하나 확인해야 할 점이 있습니다. 구글이 발표한 “2.5배 빠른 TTFT”는 Gemini 2.5 Flash 대비 수치입니다. Gemini 2.5 Flash-Lite와 비교하면 개선 폭이 훨씬 작습니다. 기존에 2.5 Flash-Lite를 쓰던 팀이 헤드라인 수치를 그대로 기대하면 실망할 수 있습니다.

정리하면, 비크리티컬 워크로드(배치 처리, 테스트 파이프라인, 내부 분류 도구)에서는 지금 당장 써도 됩니다. 고객 대면 프로덕션 시스템은 GA 이후에 전환하는 게 안전합니다.

▲ 목차로 돌아가기

경쟁 모델 직접 비교 — Haiku 4.5, GPT-5 mini와의 수치 차이

같은 티어(라이트·미니급)에서 3.1 Flash-Lite가 실제로 어떤 위치인지 수치로 보겠습니다. Claude 4.5 Haiku는 GPQA Diamond 73.0%, 입력 $1.00/1M, 출력 $5.00/1M입니다. 3.1 Flash-Lite 대비 입력은 4배, 출력은 3.3배 비쌉니다. 컨텍스트 윈도우는 20만 토큰 대 100만 토큰으로 차이가 납니다. (출처: llm-stats.com, 2026.03.21 기준)

모델	속도 (tok/s)	출력 (/1M)	컨텍스트	GPQA	GA 여부
Gemini 3.1 FL	381.9	$1.50	1M	86.9%	Preview
Claude 4.5 Haiku	~140	$5.00	200K	73.0%	GA
GPT-5 mini	~180	$2.00	128K	—	GA
Gemini 2.5 Flash-Lite	257	$0.40	1M	—	GA

출처: Artificial Analysis, llm-stats.com, Build Fast With AI (2026.03.21 기준) / “~”는 근사값

속도·가격·컨텍스트 세 항목에서 3.1 Flash-Lite가 동급 모델을 압도합니다. 단 GA 상태만큼은 반대입니다. 경쟁사 모델들은 정식 출시 상태이고, 3.1 Flash-Lite는 아직 프리뷰입니다. 이 한 가지 조건이 선택 기준을 바꿉니다.

▲ 목차로 돌아가기

자주 묻는 질문

＋

Google AI Studio에서는 프리뷰 기간 중 무료로 테스트할 수 있습니다. 모델 ID gemini-3.1-flash-lite-preview로 접근하면 됩니다. Vertex AI에서는 표준 API 가격이 적용됩니다. AI Studio 무료 사용에는 분당 요청 수 제한이 있으며 구글이 정책을 변경할 수 있습니다.

＋

모델 ID 문자열 하나만 바꾸면 됩니다. Gemini API는 표준 OpenAI 호환 인터페이스를 지원하므로, model="gemini-2.5-flash"를 model="gemini-3.1-flash-lite-preview"로 교체하면 됩니다. 단, Thinking Levels를 활용하려면 API 파라미터를 추가해야 합니다.

한국어 처리 품질은 어떤가요?
＋

MMLU(대규모 다국어 이해) 점수가 88.9%로 동급 모델 중 상위 수준입니다. (출처: llm-stats.com, 2026.03.21 기준) 구글은 번역 파이프라인을 주요 사용 사례로 명시하고 있으며, 한국어를 포함한 다국어 지원을 공식 문서에 표기하고 있습니다. 구체적인 한국어 전용 품질 수치는 공식 문서에 별도로 공개되지 않은 부분입니다.

컨텍스트 윈도우 1M 토큰을 최대로 쓰면 속도가 줄어드나요?
＋

381.9 tok/s 수치는 표준 프롬프트 길이 기준 측정값입니다. 대용량 컨텍스트를 사용하면 TTFT가 길어지고 실질 처리 속도가 낮아질 수 있습니다. Artificial Analysis가 사용하는 표준 프롬프트 길이와 실제 운영 환경의 프롬프트 길이가 다를 경우, 직접 측정을 권장합니다.

Thinking Levels를 켜면 비용이 어떻게 달라지나요?
＋

Thinking을 활성화하면 내부 추론 토큰이 출력 토큰으로 계산됩니다. 추론 깊이를 높일수록 출력 토큰 수가 늘고 비용이 올라갑니다. 정확한 사고 토큰 요금 구조는 Vertex AI 가격 페이지에서 확인할 수 있으며, 운영 전 테스트 워크로드에서 실제 비용을 먼저 측정하는 것이 좋습니다.

▲ 목차로 돌아가기

마치며

그런데 막상 수치를 전부 펼쳐 보면 기대를 조정해야 할 지점이 있었습니다. 가장 저렴한 구글 모델이라는 건 맞지 않고, 2025년 세대인 2.5 Flash-Lite가 가격 단독 기준에서는 여전히 앞서 있습니다. GA 상태가 아니라는 점도 프로덕션 전환을 늦춰야 할 이유가 됩니다.

직접적인 결론은 이렇습니다. 비크리티컬 작업이나 비용보다 품질이 중요한 고빈도 파이프라인에서는 지금 써도 됩니다. SLA가 필요한 고객 대면 서비스는 GA를 기다리는 게 낫습니다. 그리고 순수 비용이 최우선이라면 2.5 Flash-Lite를 버리지 않는 게 맞습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Google DeepMind 공식 블로그 — Gemini 3.1 Flash-Lite 출시 발표 (2026.03.03)
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
Vertex AI 공식 문서 — Gemini 3.1 Flash-Lite 스펙 및 가격 (2026.03.15 기준)
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-flash-lite
Artificial Analysis 벤치마크 비교 — 속도·가격·추론 지수 (2026.03.05)
https://artificialanalysis.ai/
llm-stats.com — Claude 4.5 Haiku vs Gemini 3.1 Flash-Lite 비교 (2026.03.21)
https://llm-stats.com/models/compare/
Build Fast With AI — Gemini 3.1 Flash Lite vs 2.5 Flash 상세 비교 (2026.03.05)
https://www.buildfastwithai.com/blogs/gemini-3-1-flash-lite-vs-2-5-flash-speed-cost-benchmarks-2026

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격 및 스펙은 각 공식 페이지에서 반드시 재확인하시기 바랍니다. 본 포스팅은 2026년 3월 21일 기준으로 작성되었으며, gemini-3.1-flash-lite-preview는 프리뷰 상태이므로 GA 전환 시 API 명세·가격이 변경될 수 있습니다.

구글 AI 2026, Gemini 3.1 Flash-Lite, Gemini API, 언어모델 비교, LLM API 가격

Gemini 3.1 Flash-Lite 써봤더니 예상과 달랐습니다

Gemini 3.1 Flash-Lite 써봤더니 예상과 달랐습니다

Gemini 3.1 Flash-Lite, 어떤 모델인가

속도 수치의 실제 의미 — 381 tok/s가 현장에서 느껴지는 방식

Lite 모델인데 추론 점수가 이전 Flash보다 높은 이유

가격이 가장 싸다는 건 절반만 맞습니다

Thinking Levels — 하나의 모델로 두 가지 인프라를 대체하는 방식

지금 바로 전환하면 안 되는 상황 두 가지

경쟁 모델 직접 비교 — Haiku 4.5, GPT-5 mini와의 수치 차이

자주 묻는 질문

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Gemini 3.1 Flash-Lite 써봤더니 예상과 달랐습니다

Gemini 3.1 Flash-Lite 써봤더니 예상과 달랐습니다

Gemini 3.1 Flash-Lite, 어떤 모델인가

속도 수치의 실제 의미 — 381 tok/s가 현장에서 느껴지는 방식

Lite 모델인데 추론 점수가 이전 Flash보다 높은 이유

가격이 가장 싸다는 건 절반만 맞습니다

Thinking Levels — 하나의 모델로 두 가지 인프라를 대체하는 방식

지금 바로 전환하면 안 되는 상황 두 가지

경쟁 모델 직접 비교 — Haiku 4.5, GPT-5 mini와의 수치 차이

자주 묻는 질문

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기