Gemini 3.1 Flash-Lite 가격, 써보니 Lite가 아닌 구간이 있었습니다

Published on

in

Gemini 3.1 Flash-Lite 가격, 써보니 Lite가 아닌 구간이 있었습니다

2026.03.03 출시 기준 / Gemini API 공식 문서 기준

2026년 3월 3일, 구글이 Gemini 3.1 Flash-Lite를 공개했습니다.
입력 $0.25/1M 토큰이라는 가격표만 보면 단순히 “싼 모델”처럼 보이지만,
공식 모델카드 벤치마크를 한 줄씩 비교해보니 그게 전부가 아니었습니다.

⚡ 출력 속도 363 토큰/초
💰 입력 $0.25 / 출력 $1.50 per 1M
🧪 GPQA Diamond 86.9%

가격표 한 줄로 끝낼 수 없는 이유

입력 토큰 100만 개당 $0.25, 출력 토큰 100만 개당 $1.50이라는 가격은
숫자만 보면 “그냥 싼 모델”처럼 읽힙니다.

그런데 이 모델의 이름에서 ‘Flash-Lite’가 가리키는 건 크기나 성능이 아니라
운영 비용과 응답 지연(Latency) 최적화입니다.
구글 DeepMind 공식 모델카드(2026.03.03 발행)에 따르면,
Flash-Lite는 Gemini 3 Pro 아키텍처를 기반으로 만들어졌습니다.
이전 세대 소형 모델들처럼 아키텍처 자체를 단순화한 게 아닌 셈입니다.

출력 속도는 초당 363 토큰입니다.
이는 Gemini 2.5 Flash의 249 토큰/초보다 45% 빠른 수치이고,
같은 경쟁 구도에 있는 Claude 4.5 Haiku(108 토큰/초)나 GPT-5 mini(71 토큰/초)와 비교하면
약 3배 이상 빠른 속도입니다 (출처: Google DeepMind 공식 모델카드, 2026.03).
실시간 응답이 필요한 챗봇이나 고빈도 API 호출 환경에서는 이 속도 차이가
사용자 경험을 완전히 바꿔놓습니다.

💡 구글 공식 발표문과 DeepMind 모델카드를 같이 놓고 보니,
Flash-Lite가 단순히 성능을 낮춘 게 아니라 Pro 아키텍처를 그대로 두고
속도와 비용 최적화에 집중한 구조라는 점이 보였습니다.

▲ 목차로 돌아가기

상위 모델을 제치는 구간이 있습니다

“Lite니까 당연히 성능도 낮겠지”라고 생각했는데, 막상 수치를 보면 달랐습니다.
DeepMind 공식 모델카드의 벤치마크 결과를 직접 정리하면 아래와 같습니다.

벤치마크 3.1 Flash-Lite 2.5 Flash Dynamic GPT-5 mini Claude 4.5 Haiku
GPQA Diamond (과학 지식) 86.9% 82.8% 82.3% 73.0%
MMMU-Pro (멀티모달 이해) 76.8% 66.7% 74.1% 58.0%
SimpleQA (정확한 사실 지식) 43.3% 28.1% 9.5% 5.5%
MMMLU (다국어 Q&A) 88.9% 86.6% 84.9% 83.0%
Video-MMMU (영상 이해) 84.8% 79.2% 82.5%
입력 가격 ($/1M) $0.25 $0.30 $0.25 $1.00

(출처: Google DeepMind 공식 모델카드, 2026.03.03)

GPQA Diamond에서 86.9%는 바로 윗 세대 모델인 Gemini 2.5 Flash(82.8%)를 4.1%p 넘습니다.
Flash-Lite가 더 저렴하면서 더 정확한 결과를 내는 구간입니다.
특히 SimpleQA에서 43.3% 대 Claude 4.5 Haiku의 5.5%는
같은 “소형·저가” 분류의 모델 사이에서 8배 가까운 차이가 납니다.

💡 벤치마크를 세로로 비교하면 “Flash-Lite가 Lite 치고는 잘한다”처럼 보이지만,
가로로 비교하면 2.5 Flash 대비 실제로 더 높은 구간이 존재합니다.
저렴한 모델이라는 틀로만 보면 이 지점을 놓칩니다.

▲ 목차로 돌아가기

Thinking Levels — 비용 제어가 가능한 구조

Flash-Lite에서 가장 주목할 부분 중 하나가 Thinking Levels 기능입니다.
구글 공식 블로그에 따르면, 이 기능은 AI Studio와 Vertex AI에서 표준으로 제공되며
개발자가 태스크마다 추론 강도를 직접 조절할 수 있습니다
(출처: Google 공식 블로그, 2026.03.03).

쉽게 말하면, 단순 분류 작업에서는 추론을 최소화해 속도를 높이고 비용을 낮추고,
복잡한 코드 생성이나 대시보드 제작에서는 추론을 높여 더 정확한 결과를 얻을 수 있습니다.
하나의 모델을 태스크 유형별로 다르게 쓰는 구조가 가능해지는 셈입니다.

이게 실제로 어떤 의미인지는 초기 사용 사례에서 확인됩니다.
Latitude(AI 스토리텔링 플랫폼)의 Kolby Nottingham은 Flash-Lite 도입 후
성공률 20% 상승, 추론 속도 60% 향상을 경험했다고 밝혔습니다
(출처: Google 공식 블로그).
HubX의 Kaan Ortabas는 루트 오케스트레이션 엔진으로 Flash-Lite를 써보니
10초 이내 완료, 구조화 출력 준수율 97%라는 수치를 공유했습니다 (출처: 동일).

💡 Thinking Levels 기능이 있다는 건, Flash-Lite가 단순히 “싸게 쓰는 모델”이 아니라
동일 모델 안에서 과금 구조를 태스크별로 최적화할 수 있다는 뜻입니다.
기존 저가 모델 포지셔닝과는 다른 지점입니다.

▲ 목차로 돌아가기

Flash-Lite가 오히려 불리한 구간

솔직히 말하면, Flash-Lite가 모든 구간에서 좋은 건 아닙니다.
공식 모델카드 수치에서 두 가지 약점이 눈에 띕니다.

① 사실성(Factuality) 벤치마크 FACTS

FACTS Benchmark Suite(사실성·근거 기반 응답 평가)에서 Flash-Lite는 40.6%를 기록했습니다.
반면 Gemini 2.5 Flash Dynamic은 50.4%로 약 10%p 높습니다
(출처: DeepMind 모델카드, 2026.03).
이 차이는 “사실에 근거해 안전하게 답변해야 하는 비즈니스 환경”에서 체감될 수 있습니다.
의료·법률·금융처럼 정확도와 근거 제시가 중요한 분야라면 2.5 Flash가 더 나을 수 있습니다.

② 1M 롱컨텍스트 성능

1M 토큰 롱컨텍스트에서 Flash-Lite(12.3%) 대 2.5 Flash Dynamic(21.0%)은
9%p 가까이 차이납니다 (출처: 동일).
긴 문서를 통째로 넣고 정보를 추출하거나, 대규모 코드베이스를 분석하는 상황에서는
Flash-Lite가 적합하지 않을 수 있습니다.
비용 계산을 할 때 “토큰 많이 쓰는 태스크”와 “짧게 반복 호출하는 태스크”를
구분해서 봐야 하는 이유가 여기 있습니다.

⚠️ 실제 사용 전 체크 포인트: 단일 요청에 128K 토큰 이상 넣는 작업,
또는 근거 기반 사실 응답이 중심인 서비스라면 Flash-Lite보다 2.5 Flash가
비용 대비 더 나은 선택일 수 있습니다.

▲ 목차로 돌아가기

경쟁사 모델과 실제 비용 비교

가격표를 가장 직관적으로 이해하는 방법은 동일 조건에서 비교하는 것입니다.
입력 1M + 출력 1M 토큰 기준 총비용으로 정리하면 아래와 같습니다.

모델 입력 $/1M 출력 $/1M 합계
Grok 4.1 Fast $0.20 $0.50 $0.70
Gemini 3.1 Flash-Lite $0.25 $1.50 $1.75
Gemini 2.5 Flash Dynamic $0.30 $2.50 $2.80
Gemini 3 Flash Preview $0.50 $3.00 $3.50
Claude 4.5 Haiku $1.00 $5.00 $6.00
Gemini 3 Pro (≤200K) $2.00 $12.00 $14.00
Gemini 3 Pro (>200K) $4.00 $18.00 $22.00

(출처: VentureBeat, 2026.03.03 / Google 공식 가격 문서)

입력 기준으로 보면 Flash-Lite($0.25)와 Grok 4.1 Fast($0.20)의 차이는 미미합니다.
하지만 출력 토큰에서 Flash-Lite($1.50) 대 Grok 4.1 Fast($0.50)는 3배 차이납니다.
출력이 많은 작업(긴 보고서 생성, 코드 작성)에서는 Grok이 더 경제적입니다.
반면 Flash-Lite는 GPQA Diamond(86.9%)에서 Grok 4.1 Fast(84.3%)를 앞서기 때문에
과학·기술적 정확도가 중요한 작업에서는 Flash-Lite가 합리적인 선택입니다.

Flash-Lite와 Gemini 3.1 Pro의 비용 차이도 흥미롭습니다.
200K 초과 롱컨텍스트 구간에서 Pro는 입력만 $4.00/1M인 반면,
Flash-Lite는 그 구간에서도 $0.25/1M을 유지합니다.
이 경우 입력 비용 기준 Flash-Lite가 Pro보다 16배 저렴합니다.
복잡한 추론은 Pro에 맡기고, 반복 실행은 Flash-Lite로 분리하는 구조가 비용 효율 측면에서
현실적인 선택이 됩니다.

▲ 목차로 돌아가기

현재 상태 — 프리뷰이기 때문에 생기는 변수

Flash-Lite는 현재 프리뷰(Preview) 상태입니다.
Google AI Studio와 Vertex AI에서 사용 가능하지만, 정식 GA(General Availability) 전환 시점은
구글이 공식 답변을 내놓지 않은 부분입니다.

프리뷰 상태에서 특히 주의해야 할 점은 가격 변동 가능성입니다.
Google AI Studio 무료 티어 한도(Gemini 3.1 Flash-Lite 기준 하루 최대 500RPD)는
정식 출시 후 변경될 수 있습니다 (출처: Google Gemini API 공식 가격 문서).

또한 DeepMind 모델카드에는 “Known Limitations”에 대해
Flash-Lite 자체의 구체적 한계에 대한 문서는 현재 공개 범위가 제한적입니다.
프리뷰 기간 중 개발자 피드백을 반영해 성능·안전성 기준을 다듬겠다는 것이 구글의 공식 입장입니다.

💡 프리뷰 가격($0.25/$1.50)이 GA 전환 후에도 그대로 유지될지는 아직 알 수 없습니다.
과거 Gemini 2.5 Flash의 경우 GA 전환 전후로 가격 구조가 일부 변경된 사례가 있었습니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Gemini 3.1 Flash-Lite와 2.5 Flash-Lite는 다른 모델인가요?
네, 완전히 다른 세대입니다. 2.5 Flash-Lite는 Gemini 2.5 시리즈 기반이고,
3.1 Flash-Lite는 Gemini 3 Pro 아키텍처를 기반으로 만들어진 3 시리즈 모델입니다.
벤치마크 기준으로 3.1 Flash-Lite가 GPQA Diamond(86.9% vs 66.7%),
MMMU-Pro(76.8% vs 51.0%), MMMLU(88.9% vs 84.5%) 등 대부분에서
2.5 Flash-Lite보다 높은 수치를 보입니다.
가격은 3.1이 $0.25/1M(입력), 2.5 Flash-Lite가 $0.10/1M(입력)으로 2.5배 더 비쌉니다.
Q2. Thinking Levels 기능은 추가 비용이 드나요?
Thinking Levels를 사용할 경우 추론 과정에서 추가 토큰이 발생할 수 있습니다.
구글은 추론 토큰에 대한 별도 과금 구조를 Vertex AI 공식 가격 문서에서
“추론 토큰 포함”으로 명시하고 있습니다.
따라서 Thinking Levels를 높게 설정할수록 총 출력 토큰 수가 늘어나
실제 비용이 올라갈 수 있습니다.
단순 분류·번역 작업에는 Thinking Level을 낮게 설정하는 것이 비용 효율적입니다.
Q3. 현재 무료로 사용할 수 있나요?
Google AI Studio에서는 API 키 기반으로 하루 500 RPD(요청 수)까지 무료로 사용 가능합니다.
단, 유료 티어(1,500 RPD)는 Google Cloud Billing을 활성화해야 하며,
초과분은 $0.25/1M(입력) 기준으로 과금됩니다.
Vertex AI는 무료 티어가 별도로 없고 처음부터 유료 과금 구조입니다.
Q4. 한국어 처리 성능은 어느 정도인가요?
공식 모델카드의 MMMLU(다국어 Q&A) 벤치마크에서 Flash-Lite는 88.9%를 기록했습니다.
이는 경쟁 모델 중 가장 높은 수치입니다(GPT-5 mini 84.9%, Claude 4.5 Haiku 83.0%).
MMMLU에는 한국어를 포함한 다양한 언어 평가가 포함되어 있어,
한국어 처리 능력도 이 범주 안에서 측정됩니다.
다만 특정 한국어 전용 벤치마크 수치는 공식 문서에서 별도로 공개되지 않았습니다.
Q5. 롱컨텍스트 작업에는 적합한가요?
컨텍스트 윈도우는 최대 1M 토큰을 지원하지만,
실제 1M 포인트와이즈 롱컨텍스트 성능은 12.3%로 2.5 Flash Dynamic(21.0%)보다 낮습니다.
128K 이하 컨텍스트에서는 Flash-Lite가 경쟁 우위를 가지지만,
대형 문서 전체를 한 번에 처리하는 구조라면 2.5 Flash가 더 나은 선택입니다.
비용만 놓고 보면 Flash-Lite가 저렴하지만, 성능 손실을 감수해야 합니다.

▲ 목차로 돌아가기

마치며

과학 지식 정확도, 멀티모달 이해, 다국어 처리에서 직전 상위 세대 모델을 제치는 구간이 있고,
Thinking Levels로 같은 모델 안에서 과금 구조를 조절할 수 있다는 점은
기존 저가 모델들과 구분되는 지점입니다.

반면 사실성(FACTS) 벤치마크와 1M 롱컨텍스트에서는 2.5 Flash Dynamic보다 낮습니다.
모든 작업에 Flash-Lite를 밀어넣는 것보다,
고빈도 단거리 작업에는 Flash-Lite,
긴 문서 분석이나 근거 기반 응답에는 2.5 Flash를 유지하는 구조가
현실적으로 더 나은 경우가 많습니다.

프리뷰 상태라는 점도 감안해야 합니다. 지금 수치가 GA 전환 이후에도 동일하게 유지된다는 보장은 없습니다.
가격과 성능 모두를 같이 보면서 판단하는 것이 이 모델을 가장 잘 쓰는 방법입니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

  1. Google 공식 블로그 — Gemini 3.1 Flash-Lite 출시 발표 (2026.03.03)
  2. Google DeepMind 공식 모델카드 — Gemini 3.1 Flash-Lite (2026.03.03)
  3. Google Gemini API 공식 가격 문서
  4. VentureBeat — Google releases Gemini 3.1 Flash Lite at 1/8th the cost of Pro (2026.03.03)
  5. Artificial Analysis — AI 모델 속도·성능 독립 평가

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
모든 가격 수치는 2026년 3월 21일 기준 Google 공식 문서를 기반으로 작성되었습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기