Gemini 3.1 Flash-Lite, 저렴하다고요? 요금표에 이게 있습니다

2026.03.03 출시 기준 / Preview 버전

입력 $0.25/1M 토큰이라는 숫자만 보면 싸 보입니다.
하지만 Thinking 토큰 요금 구조와 전 세대 비교를 같이 놓으면 얘기가 달라집니다.

입력 $0.25 / 출력 $1.50 per 1M
출력속도 363 토큰/초
1M 토큰 컨텍스트

2026년 3월 3일, 구글이 Gemini 3.1 Flash-Lite를 공개했습니다. 공식 발표 문구를 그대로 옮기면 “Gemini 3 시리즈 중 가장 빠르고 가장 비용 효율적인 모델”입니다. Google AI Studio와 Vertex AI에서 Preview 상태로 접근할 수 있고, 지금 시점에는 유료 플랜 사용자만 과금이 발생합니다. 무료 Tier에서도 API 키 발급 후 테스트는 가능합니다.
(출처: Google Blog, 2026.03.03)

모델 이름이 좀 헷갈립니다. Flash-Lite이지 Flash가 아닙니다. 같은 Flash 계열이지만 Flash보다 한 단계 아래 포지셔닝입니다. Gemini 3 시리즈 내 서열을 정리하면 3.1 Pro → 3 Flash → 3.1 Flash-Lite 순서입니다. 공식 문서에도 “고용량·비용 우선 워크로드용”이라고 명시돼 있습니다.

아키텍처는 Gemini 3 Pro 기반입니다. 다시 말해, 가볍게 만든 별도 모델이 아니라 Pro를 베이스로 비용·속도에 맞게 최적화한 버전입니다.
(출처: Google DeepMind Model Card, 2026.03.03)

▲ 목차로 돌아가기

$0.25가 전 세대보다 비싼 이유

💡 공식 요금표와 세대별 가격을 같이 놓고 보니 이런 차이가 보였습니다

“가장 저렴한 Gemini 3 시리즈”라는 말은 맞습니다. 하지만 Gemini 전체 시리즈를 놓고 보면 최저가가 아닙니다. 직전 세대인 2.5 Flash-Lite가 더 쌉니다.

공식 요금표를 직접 비교해봤습니다.
(출처: Gemini Developer API Pricing 공식 페이지, 2026.03.30 확인)

모델	입력 (텍스트)	출력	Thinking 포함
2.0 Flash-Lite	$0.075	$0.30	❌ 없음
2.5 Flash-Lite	$0.10	$0.40	✅ 포함
3.1 Flash-Lite	$0.25	$1.50	✅ 포함

입력 기준으로 2.5 Flash-Lite($0.10) 대비 3.1 Flash-Lite($0.25)는 2.5배 비쌉니다. 출력 역시 $0.40 → $1.50으로 3.75배 차이입니다. “Gemini 3 안에서는 제일 싸다”는 말이 맞지만, 실제 쓰던 2.5 Flash-Lite에서 갈아탄다면 비용이 올라갑니다.

Reddit 커뮤니티(r/Bard)에서도 “적어도 내 작업 기준으로는 3 시리즈가 토큰도 더 많이 쓰고 단가도 더 비싸다”는 지적이 나왔습니다. (출처: Reddit r/Bard, 2026.03.03)

▲ 목차로 돌아가기

Thinking 토큰이 출력 요금에 잡히는 구조

요금표를 자세히 보면 출력 요금 항목에 괄호가 붙어 있습니다. “Output price (including thinking tokens) — $1.50”이라고요. 공식 요금 문서에 그대로 나옵니다. 이게 무슨 뜻이냐면, Thinking 모드로 모델이 내부 추론을 진행할 때 발생하는 토큰들도 모두 $1.50 단가로 과금된다는 얘기입니다.
(출처: Gemini Developer API Pricing, ai.google.dev)

💡 Thinking 토큰이 요금에 더해지는 방식, 많은 글이 넘어가는 부분입니다

API 응답에서 눈에 보이는 텍스트는 500 토큰이어도, 내부적으로 2,000 토큰짜리 추론 과정이 있었다면 실제 출력 과금은 2,500 토큰입니다. 추론 레벨을 높일수록 Thinking 토큰이 많아집니다.

(출처: Google Blog, 2026.03.03)

오디오 입력은 텍스트보다 2배 비쌉니다

공식 요금표를 보면 텍스트·이미지·영상 입력은 $0.25/1M이지만, 오디오 입력은 $0.50/1M입니다. 정확히 2배입니다. 음성 데이터를 대량으로 처리하는 워크플로에서 이 차이는 무시하기 어렵습니다. Flash-Lite는 “저렴한 멀티모달 모델”로 소개되지만, 모달리티마다 단가가 다르다는 점은 따로 챙겨야 합니다.

▲ 목차로 돌아가기

경쟁 모델과 실제로 비교해보면

구글은 공식 Model Card에서 GPT-5 mini, Claude 4.5 Haiku Extended Thinking, Grok 4.1 Fast를 직접 비교표에 올렸습니다. 숨기지 않고 공개했다는 점에서 신뢰도는 높습니다. 공식 데이터를 그대로 인용합니다.
(출처: Google DeepMind Model Card — Gemini 3.1 Flash-Lite, 2026.03.03)

항목	3.1 Flash-Lite	GPT-5 mini	Claude 4.5 Haiku	Grok 4.1 Fast
입력 ($/1M)	$0.25	$0.25	$1.00	$0.20
출력 ($/1M)	$1.50	$2.00	$5.00	$0.50
출력 속도 (t/s)	363	71	108	145
GPQA Diamond	86.9%	82.3%	73.0%	84.3%
MMMU Pro	76.8%	74.1%	58.0%	63.0%
Video-MMMU	84.8%	82.5%	—	74.6%

출력 속도가 눈에 띕니다. GPT-5 mini(71 t/s) 대비 5.1배, Claude 4.5 Haiku(108 t/s) 대비 3.4배입니다. 고빈도 실시간 워크로드라면 속도 차이가 처리량 전체에 직결됩니다. 반면 코딩 벤치마크(LiveCodeBench)에서는 GPT-5 mini(80.4%)가 3.1 Flash-Lite(72.0%)를 앞섭니다. 코드 생성이 주력이라면 GPT-5 mini가 더 유리합니다.

Grok 4.1 Fast는 출력 요금이 $0.50으로 Flash-Lite보다 저렴하지만, 멀티모달 이해(MMMU Pro 63%)와 비디오 이해(Video-MMMU 74.6%)에서 명확히 뒤처집니다. 이미지·영상 처리가 포함된 파이프라인에서는 단순 가격 비교만으로 선택하기 어렵습니다.

▲ 목차로 돌아가기

Batch API로 비용을 절반으로 줄이는 방법

💡 공식 요금표 두 곳을 비교하면 바로 보이는 숫자입니다

대부분의 리뷰가 Standard 요금만 다룹니다. Batch API 요금은 공식 페이지에 별도로 나와 있는데, 적용하면 실질 단가가 절반으로 내려갑니다.

(출처: Gemini Developer API Pricing, ai.google.dev, 2026.03.30 확인)

모드	입력 (텍스트)	출력	응답 시간
Standard	$0.25 / 1M	$1.50 / 1M	실시간
Batch	$0.125 / 1M	$0.75 / 1M	최대 24시간

대량 번역, 콘텐츠 분류, 데이터 태깅처럼 응답 속도가 결정적이지 않은 작업에서는 Batch 모드가 훨씬 현실적인 선택입니다. 입력 기준으로 $0.125/1M이면 2.5 Flash-Lite Standard($0.10)와 큰 차이가 없습니다.

64K 출력 한도가 실질적 병목입니다

컨텍스트 창은 1M 토큰이지만, 최대 출력 토큰은 64K로 제한됩니다. 공식 Model Card에 명시된 수치입니다. (출처: Google DeepMind Model Card, 2026.03.03) 대규모 문서를 입력해도 생성 응답 길이는 64K 안에 묶입니다. 긴 코드베이스 분석이나 긴 형식의 콘텐츠 생성이 주력인 파이프라인에서는 이 한도가 실제 제약이 됩니다.

▲ 목차로 돌아가기

벤치마크 수치, 직접 확인했습니다

공식 Model Card에서 주목할 수치가 두 개 있습니다. 하나는 멀티모달 이해 점수인 MMMU Pro 76.8%입니다. 같은 가격대의 GPT-5 mini(74.1%)보다 높습니다. 이미지·표·차트가 포함된 복합 입력 처리에서 Flash-Lite가 GPT-5 mini를 밀어낸다는 뜻입니다.
(출처: Google DeepMind Model Card, 2026.03.03)

다른 하나는 SimpleQA Verified 43.3%입니다. 이 벤치마크는 모델의 사실 기억 정확도를 측정합니다. GPT-5 mini가 9.5%, Claude 4.5 Haiku가 5.5%로 현저히 낮은 반면 Flash-Lite가 압도적으로 높습니다. 사실 기반 Q&A, 지식 검색, 데이터 확인 작업에서 Flash-Lite가 같은 티어 모델들보다 훨씬 안정적입니다.

💡 Artificial Analysis 속도 벤치마크와 공식 발표를 교차하니 이런 그림이 나왔습니다

공식 발표는 “2.5 Flash 대비 2.5배 빠른 Time to First Answer Token, 45% 빠른 출력 속도”라고 했는데, 실측치(363 t/s)를 GPT-5 mini(71 t/s)와 비교하면 속도 격차는 더 극적입니다. 실시간 스트리밍이나 대화형 앱에서 Flash-Lite의 실용성이 크게 높습니다.
(출처: Artificial Analysis Benchmark / Google Blog, 2026.03.03)

단, FACTS Benchmark Suite(사실 기반·그라운딩 종합 평가)에서는 Gemini 2.5 Flash Dynamic이 50.4%로 Flash-Lite(40.6%)보다 높습니다. 그라운딩 기능이 핵심인 워크로드라면 세대 이전이 무조건 유리하진 않습니다. 선택 기준을 단순히 버전 숫자로만 잡으면 손해 보는 구간이 생깁니다.

오랜 컨텍스트 성능(MRCR v2 1M pointwise 기준)은 Flash-Lite 12.3%로 2.5 Flash Dynamic(21.0%)보다 낮습니다. 1M 컨텍스트를 지원한다고 표기되어 있지만, 실제 매우 긴 문서에서 포인트를 정확히 찾아내는 능력은 상위 모델보다 떨어집니다. 이 수치의 공식 출처는 이유를 별도로 설명하지 않았습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Gemini 3.1 Flash-Lite은 지금 바로 쓸 수 있나요?

Google AI Studio에서 API 키를 발급하면 무료 Tier에서 Preview 상태로 바로 테스트할 수 있습니다. 유료 과금은 Paid Tier 사용자에게만 적용됩니다. Vertex AI를 통한 기업용 접근도 같은 날 공개됐습니다.

Q2. 2.5 Flash-Lite에서 3.1 Flash-Lite로 갈아타는 게 이득인가요?

성능은 올라가지만 비용도 올라갑니다. 입력 기준 2.5배, 출력 기준 3.75배 비쌉니다. 번역·분류처럼 단순 반복 작업은 2.5 Flash-Lite가 여전히 비용 효율이 높습니다. GPQA Diamond나 MMMU Pro 수준의 추론·멀티모달 작업이 포함된 경우에만 전환 효과가 납니다.

Q3. Thinking 모드를 끌 수 있나요?

AI Studio와 Vertex AI에서 thinking level을 직접 조절할 수 있습니다. 낮은 레벨로 설정하면 Thinking 토큰 소비를 최소화할 수 있습니다. 다만 아예 0으로 제거하는 것이 가능한지 여부는 공식 문서에서 별도 설명을 내놓지 않았습니다.

Q4. Gemini API 무료 Tier에서 학습 데이터로 활용되나요?

공식 요금 페이지에 직접 명시돼 있습니다. 무료 Tier에서는 “Used to improve our products: Yes”이고, Paid Tier에서는 “No”입니다. 사내 기밀이나 고객 데이터를 처리할 때는 유료 플랜 또는 Vertex AI 기업 플랜을 사용하는 것이 필요합니다.
(출처: Gemini Developer API Pricing, ai.google.dev)

Q5. 컨텍스트 캐싱은 지원되나요?

Paid Tier에서 지원됩니다. 캐싱 요금은 텍스트·이미지·영상 기준 $0.025/1M, 오디오는 $0.05/1M이며 스토리지 요금 $1.00/1M 토큰/시간이 별도로 붙습니다. 동일한 긴 컨텍스트를 반복 호출하는 RAG 파이프라인에서 비용을 줄이는 데 효과적입니다.

▲ 목차로 돌아가기

마치며

다만 “저렴하다”는 홍보 문구에는 조건이 붙습니다. Gemini 3 시리즈 내에서 가장 저렴한 것이고, 전 세대 Flash-Lite와 비교하면 비용이 올라갑니다. Thinking 토큰이 출력 요금에 포함된다는 구조도 실제 청구서를 보기 전에 감안해야 할 부분입니다.

솔직히 말하면, 지금 2.5 Flash-Lite로 잘 돌아가는 파이프라인을 굳이 바꿀 이유는 크지 않습니다. 멀티모달 추론 품질이 필요하거나 실시간 응답 속도가 병목인 상황에서 3.1 Flash-Lite가 빛납니다. 단순 텍스트 처리량이 목표라면 Batch API 50% 할인을 적용하거나 여전히 2.5 Flash-Lite를 유지하는 게 실속 있습니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
Google DeepMind — Gemini 3.1 Flash-Lite Model Card (2026.03.03)
https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/
Gemini Developer API — 공식 요금 페이지 (2026.03.30 확인)
https://ai.google.dev/gemini-api/docs/pricing
Artificial Analysis — Gemini 3.1 Flash-Lite Preview vs GPT-5 mini 비교
https://artificialanalysis.ai/models/comparisons/gemini-3-1-flash-lite-preview-vs-gpt-5-mini

※ 본 포스팅은 Gemini 3.1 Flash-Lite Preview 버전 기준(2026.03.03 출시)으로 작성됐습니다.
Preview 상태 특성상 요금·기능·정책이 정식 출시 시 변경될 수 있습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
최종 결제 전 반드시 공식 요금 페이지에서 현행 가격을 확인하세요.

$0.25가 전 세대보다 비싼 이유