Gemini 3.1 Flash-Lite, 저렴하다는 말이 절반만 맞는 이유

Published on

in

Gemini 3.1 Flash-Lite, 저렴하다는 말이 절반만 맞는 이유

2026.03.25 기준
gemini-3.1-flash-lite-preview 기준

Gemini 3.1 Flash-Lite,
저렴하다는 말이 절반만 맞는 이유

2026년 3월 3일, 구글이 조용히 공개한 이 모델은 “싸고 빠르다”는 설명 하나로 화제가 됐습니다. 근데 실제로 계산해 보면 말이 좀 달라집니다.

출력 속도 381.9 t/s
GPQA Diamond 86.9%
입력 $0.25/1M tokens

닫힌 모델인데 오픈소스보다 빠른 게 이상한 이유

Gemini 3.1 Flash-Lite의 출력 속도는 381.9 tokens/sec입니다. Artificial Analysis 벤치마크 기준으로, GPT-5 mini(71 t/s)의 5.4배, Claude 4.5 Haiku(108 t/s)의 3.5배 수준이에요. (출처: Artificial Analysis 벤치마크, 2026.03 기준)

유료 모델이 이 속도를 내는 건 생각보다 드문 일입니다. 구글이 공식 블로그에서 밝힌 수치에 따르면, 같은 계열인 2.5 Flash(232.3 t/s) 대비 64% 빠르고, 첫 토큰 응답 시간(TTFT)은 2.5배 단축됐습니다. 200단어짜리 답변이 2.7초에서 1.5초로 줄어드는 수준이에요. (출처: Google Blog, 2026.03.03)

이 속도가 중요한 이유는 단순히 빠른 게 아니라, 스트리밍 실서비스에서 “사용자가 체감하는 반응 속도”와 직결되기 때문입니다. 라이브 챗이나 실시간 번역처럼 첫 글자가 늦게 뜨면 사용자 이탈로 이어지는 워크플로에서 의미 있는 차이입니다.

▲ 목차로 돌아가기

“Lite”인데 지능 점수가 더 높다는 수치의 의미

💡 공식 발표문과 실제 벤치마크 수치를 같이 놓고 보니 이런 역설이 보였습니다 — Lite 모델이 오히려 상위 Flash를 지능 지표에서 추월하고 있습니다.

Artificial Analysis Intelligence Index에서 Gemini 3.1 Flash-Lite 점수는 34점, 반면 직전 세대인 Gemini 2.5 Flash는 21점입니다. 62% 차이예요. 일반적으로 “Lite” 버전은 성능을 낮춘 대신 가격을 낮추는 게 공식이었는데, 이 모델은 그 공식을 깼습니다. (출처: Artificial Analysis 벤치마크, 2026.03)

과학 추론 벤치마크인 GPQA Diamond에서는 86.9%를 기록했습니다. 이 점수가 눈에 띄는 건, 이전 세대에서 Flash-Lite보다 상위 모델로 분류됐던 Gemini 2.5 Flash를 이 항목에서 앞서기 때문입니다. (출처: Google 공식 블로그, 2026.03.03)

MMMU Pro(멀티모달 이해) 기준 점수도 76.8%로, 이전 세대의 더 큰 모델들을 실제 수치에서 뛰어넘었습니다. “Lite는 당연히 성능이 낮겠지”라는 전제가 이번 릴리스에서는 그냥 틀렸습니다.

모델 AA Intelligence Index GPQA Diamond 출력 속도(t/s)
Gemini 3.1 Flash-Lite 34 86.9% 381.9
Gemini 2.5 Flash 21 232.3
GPT-5 mini 71
Claude 4.5 Haiku 108

(출처: Google 공식 블로그, Artificial Analysis, 2026.03.03 기준)

▲ 목차로 돌아가기

가격표만 보면 놓치는 것 — thinking 토큰의 함정

💡 가격을 입력/출력 단가만으로 비교하면 놓치는 청구 항목이 있습니다. thinking 토큰은 출력처럼 보이지 않아도 비용에 포함됩니다.

공식 가격표에 적힌 Gemini 3.1 Flash-Lite의 단가는 입력 $0.25/1M tokens, 출력 $1.50/1M tokens입니다. 2.5 Flash($0.30/$2.50)보다 싼 건 맞습니다. 하지만 구글은 “출력 비용에는 thinking 토큰이 포함된다”고 Gemini 가격 정책 페이지에 명시했습니다. (출처: Finout Gemini Pricing 2026, finout.io)

다시 말해, 복잡한 프롬프트를 쓸 때 모델이 내부적으로 추론하는 토큰도 출력 단가로 청구됩니다. Thinking HIGH 모드로 설정하면 눈에 보이는 답변 외에 추론 과정 토큰이 추가로 쌓이고, 이게 전체 청구 금액을 끌어올립니다. 단순 번역에만 쓴다면 괜찮지만, 코드 생성이나 복잡한 분석에 Thinking HIGH를 쓰면 예상과 다른 청구서를 받을 수 있습니다.

더 중요한 포인트는 구세대 모델과의 비교입니다. 직접 계산해 보면:

⚠️ 순수 비용 비교 (출력 토큰 1M 기준)

  • Gemini 3.1 Flash-Lite: $1.50
  • Gemini 2.5 Flash-Lite: $0.40
  • 차이: 3.75배

(출처: Sanjeev Patel, Medium, 2026.03.10 / Finout Gemini Pricing 2026)

하루 5,000만 토큰 이상을 처리하는 워크플로라면, 이 0.40 vs 1.50 차이가 월 수십만 원 단위로 벌어집니다. “3.1 Flash-Lite가 나왔으니 무조건 갈아타야 한다”는 판단이 얼마나 위험한지 이 수치 하나로 충분히 설명됩니다. 속도와 지능이 필요 없는 단순 처리 작업이라면, 구 모델이 여전히 압도적으로 저렴합니다.

▲ 목차로 돌아가기

thinking levels, 왜 두 모델을 하나로 줄일 수 있나

💡 공식 문서와 실제 개발자 사용 흐름을 같이 보니 이 기능의 진짜 이점이 달라 보였습니다 — 비용 절감보다 인프라 단순화 효과가 더 큽니다.

Gemini 3.1 Flash-Lite는 출시부터 thinking levels를 기본으로 내장하고 있습니다. Google AI Studio와 Vertex AI 모두에서 사용할 수 있어요. 이게 중요한 이유는 단순히 “추론 강도를 조절한다”는 차원이 아닙니다. (출처: Google AI Studio 공식 문서, 2026.03.03)

thinking levels는 세 단계로 구성됩니다:

OFF

381 t/s · 최저가

번역, 분류, 콘텐츠 모더레이션

LOW

균형 모드

정형 출력, 양식 처리, 요약

HIGH

풀 추론 모드

코드 생성, 복잡한 분석, 멀티스텝

기존에 대부분의 개발팀은 단순 작업엔 싼 Flash 계열, 복잡한 작업엔 Pro 계열을 쓰면서 두 API 엔드포인트 사이에 라우팅 로직을 따로 유지했습니다. 3.1 Flash-Lite는 이걸 하나의 엔드포인트, 하나의 청구 라인으로 통합합니다. 단순화되는 건 비용이 아니라 아키텍처입니다. 규모가 커질수록 라우팅 유지보수 비용이 생각보다 큽니다.

단, 한 가지 주의할 게 있습니다. 공식 문서에 따르면 Thinking 기능 사용 시 thinking 토큰이 출력 단가로 청구됩니다. HIGH 모드를 기본값으로 켜두면 예상보다 빠르게 비용이 올라갑니다. 모드별로 워크플로를 분리해서 실측해보고 설정하는 게 맞습니다.

▲ 목차로 돌아가기

경쟁 모델과 직접 비교 — 어느 쪽이 더 유리한지

Gemini 3.1 Flash-Lite를 다른 모델과 비교할 때 단가만 보면 판단을 잘못 내리기 쉽습니다. 실제 사용 패턴에 따라 결론이 달라지기 때문에 “blended cost” 개념이 중요합니다. 입력 3, 출력 1 비율로 가정하면 토큰당 실질 단가는 다음과 같습니다. (출처: Sanjeev Patel, Medium, 2026.03.10)

모델 입력 $ 출력 $ Blended (~3:1) 컨텍스트 창
Gemini 3.1 Flash-Lite $0.25 $1.50 ~$0.56 1M tokens
Gemini 2.5 Flash $0.30 $2.50 ~$0.95 1M tokens
Gemini 2.5 Flash-Lite $0.10 $0.40 ~$0.18
GPT-5 mini 128K tokens

(출처: Sanjeev Patel, Medium 2026.03.10 / Finout Gemini Pricing 2026 기준)

3.1 Flash-Lite의 blended 단가 $0.56은 2.5 Flash($0.95) 대비 41% 저렴합니다. 동시에 컨텍스트 창이 1M tokens로, GPT-5 mini(128K)보다 7.8배 넓습니다. 긴 문서를 한 번에 처리해야 하는 파이프라인에서 이 차이는 체감이 큽니다.

단, 오픈소스 진영의 도전도 주목할 만합니다. Reddit 커뮤니티에서는 MiMo-V2-Flash($0.09/$0.29)가 순수 비용 기준으로 더 저렴하다는 지적이 있습니다. 구글 생태계 외에서 운영하는 팀이라면 오픈소스 선택지도 함께 검토하는 게 맞습니다.

▲ 목차로 돌아가기

지금 당장 쓰면 안 되는 딱 한 가지 상황

2026년 3월 25일 기준, Gemini 3.1 Flash-Lite의 공식 버전 상태는 Preview입니다. Google AI Studio와 Vertex AI 모두에서 gemini-3.1-flash-lite-preview로만 접근 가능하며, GA(General Availability) 버전이 아직 없습니다. (출처: Vertex AI 공식 문서, 2026.03.21 기준)

Preview 상태는 구체적으로 세 가지를 의미합니다. 첫째, SLA 보장이 없습니다. 서비스 중단 시 보상받을 근거가 없어요. 둘째, API 스펙이 예고 없이 바뀔 수 있습니다. 지금 작동하는 파라미터가 GA 시점에 달라질 수 있습니다. 셋째, 엔터프라이즈 지원 범위가 제한적입니다.

매출에 영향을 주는 프로덕션 서비스라면 현재 시점에서는 2.5 Flash를 유지하면서 스테이징 환경에서 3.1 Flash-Lite를 병렬 테스트하는 게 현실적입니다. 개인 프로젝트나 비크리티컬 파이프라인이라면 지금 바로 써봐도 됩니다. 속도와 품질의 차이가 실제로 있습니다.

▲ 목차로 돌아가기

Q&A

Q1. Gemini 3.1 Flash-Lite는 무료로 쓸 수 있나요?

Google AI Studio에서는 API 키 발급 후 무료 사용 한도(rate limit) 내에서 쓸 수 있습니다. 다만 Vertex AI를 통한 엔터프라이즈 워크로드는 입력 $0.25/1M, 출력 $1.50/1M 토큰으로 과금됩니다. 일반 소비자용 Gemini 앱에서는 현재 이 모델이 직접 노출되지 않습니다.

Q2. 2.5 Flash에서 3.1 Flash-Lite로 갈아타야 할까요?

성능과 속도만 보면 갈아탈 이유가 있습니다. 하지만 Preview 상태라 SLA가 없습니다. 프로덕션이라면 GA 출시를 기다리고, 비크리티컬 워크플로에서 먼저 테스트하는 흐름을 권장합니다.

Q3. thinking levels는 어떻게 설정하나요?

API 호출 시 파라미터로 thinking_level을 OFF / LOW / HIGH 중 하나로 설정합니다. Google AI Studio 우측 패널에서도 직관적으로 조절할 수 있습니다. 기본값은 별도로 설정하지 않으면 LOW 수준으로 작동합니다.

Q4. 한국어 처리 품질은 어떤가요?

공식 문서에서 지원 언어 목록에 한국어가 포함돼 있습니다. 대규모 번역이나 콘텐츠 모더레이션이 주요 활용 사례로 명시돼 있어서 한국어 작업에도 적합합니다. 다만 복잡한 한국어 맥락 이해가 필요한 작업은 실측 비교가 필요합니다.

Q5. 컨텍스트 캐싱(context caching)도 지원하나요?

Vertex AI 공식 문서에 따르면 3.1 Flash-Lite도 context caching을 지원합니다. 반복적으로 사용하는 대형 문서나 시스템 프롬프트를 캐시해두면 입력 토큰 비용을 크게 줄일 수 있습니다. 스토리지 요금이 별도 청구되므로 장기 캐시 운영 비용도 사전에 계산해야 합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash-Lite는 “Lite = 저성능”이라는 공식을 깬 모델입니다. 지능 지표에서 상위 모델을 뛰어넘고, 속도에서 경쟁 모델들을 압도합니다. 이 두 가지는 공식 수치로 확인되는 사실입니다.

솔직히 말하면, 이 모델이 완벽하다고 하기엔 아직 이릅니다. Preview 딱지가 붙어 있는 이상 프로덕션에 올리기 전에 충분한 테스트가 필요하고, thinking 토큰 비용이 예상보다 많이 나올 수 있다는 점도 실제 운영 전에 확인해야 합니다. 가장 주의해야 할 건 구세대 Flash-Lite와의 단가 차이입니다. 대용량 저단가 작업이라면 구 모델이 여전히 3.75배 저렴합니다.

GA 전환 시점을 기다리면서, 지금은 비크리티컬 워크플로에서 실측해보는 단계가 맞습니다. 속도와 품질의 차이가 실제로 느껴진다면, GA 이후 프로덕션 전환을 검토하는 순서가 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash-Lite 공식 발표 (blog.google)
  2. Vertex AI 공식 문서 — Gemini 3.1 Flash-Lite 모델 스펙 (cloud.google.com)
  3. Finout — Gemini Pricing in 2026 (finout.io)
  4. Sanjeev Patel, Medium — I Tested Google’s New Gemini 3.1 Flash Lite (2026.03.10)
  5. Artificial Analysis — 속도 및 지능 벤치마크 (artificialanalysis.ai)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini 3.1 Flash-Lite는 2026년 3월 25일 기준 Preview 상태이며, 가격 및 스펙은 GA 전환 시 달라질 수 있습니다. 투자·구매 결정은 공식 문서를 통해 최신 정보를 확인하고 판단하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기