Gemini 3.1 Flash-Lite, 싸다고 했는데 이건 비쌉니다

Published on

in

Gemini 3.1 Flash-Lite, 싸다고 했는데 이건 비쌉니다

2026.03.18 기준 / gemini-3.1-flash-lite-preview (March 2026)

구글이 2026년 3월 3일 출시한 Gemini 3.1 Flash-Lite는 “역대 가장 저렴한 Gemini 3 시리즈”라는 타이틀을 달고 나왔습니다. 실제로 입력 토큰 가격만 보면 맞는 말입니다. 그런데 출력 토큰 가격표를 옆에 놓는 순간, 생각이 달라집니다.

입력 토큰 가격
$0.25 /1M
출력 토큰 가격
$1.50 /1M
출력 속도
363 tokens/s
GPQA Diamond
86.9%

어떤 모델인지 먼저 정리합니다

모델 아키텍처 측면에서 특이한 점이 있습니다. 공식 모델 카드(출처: Google DeepMind Model Card, 2026.03.03)에 명시된 내용인데, Gemini 3.1 Flash-Lite는 Gemini 3 Pro를 기반으로 증류(distillation)된 모델입니다. 즉, 프로급 지능을 압축해 경량화한 구조입니다. 이게 단순한 마케팅 문구가 아니라는 건 벤치마크 수치에서 실제로 확인됩니다.

컨텍스트 윈도우는 최대 100만(1M) 토큰이고, 출력 토큰 한도는 65,536개입니다. 텍스트, 이미지, 비디오, 오디오, PDF를 입력으로 받습니다. 다만 오디오 생성, 이미지 생성, 컴퓨터 사용(Computer Use), Live API는 지원하지 않습니다. 이 네 가지 제약은 사용 목적에 따라 결정적인 제한이 될 수도 있어서, 처음부터 확인해두는 게 맞습니다.

지식 컷오프(Knowledge cutoff)는 2025년 1월입니다. 2026년 3월 시점 기준으로 약 14개월 이전 정보까지만 알고 있다는 의미입니다. 최신 시사나 뉴스를 기반으로 한 작업에는 Google Search 그라운딩 도구를 함께 써야 현실적인 결과가 나옵니다.

속도 수치, 직접 따라해볼 수 있게 정리했습니다

공식 블로그에서 “2.5 Flash 대비 첫 응답 토큰 속도(TTFT) 2.5배 향상, 출력 속도 45% 증가”라고 발표했습니다. 이 수치는 Artificial Analysis 벤치마크 기준입니다. 독립 평가 기관인 LayerLens의 Stratix 플랫폼 검증 결과(출처: LayerLens, 2026.03.05)에서는 MMLU Pro 2,000문항 기준 평균 응답 레이턴시가 1.38초로 측정됐습니다.

이게 얼마나 빠른 건지 동일 조건 비교로 체감할 수 있습니다. 같은 벤치마크에서 경쟁 모델들의 레이턴시를 직접 대입하면 다음과 같습니다.

모델 MMLU Pro 정확도 평균 레이턴시 배속 차이
Gemini 3.1 Flash-Lite 83.0% 1.38s 기준
GPT-5 Nano 57.5% 16.79s 12.2배 느림
Qwen3.5 27B 86.3% 58.57s 42.4배 느림
Qwen3.5 35B A3B (MoE) 85.2% 82.33s 59.7배 느림

위 수치를 실제 운영 환경에 대입해 보면 이렇습니다. 하루 10만 건의 요청을 처리하는 파이프라인에서 Qwen3.5 27B를 쓰면 총 처리 시간이 Flash-Lite 대비 42배 늘어납니다. 10만 건 × (58.57s − 1.38s) = 약 5,719,000초, 즉 하루 분량의 처리에 66일치 추가 연산 시간이 필요하다는 의미입니다. 이건 단순 속도 차이가 아니라 인프라 비용 구조 자체가 달라지는 차이입니다.

출력 토큰 가격에서 막힙니다

공식 모델 카드에 공개된 경쟁 모델 가격표를 나란히 놓으면 한 가지 패턴이 보입니다. 입력 토큰 가격에서는 Flash-Lite가 실제로 경쟁력이 있습니다. 그런데 출력 토큰 기준으로 보면 구도가 달라집니다.

모델 입력 $/1M 출력 $/1M 출력 속도 (t/s)
Gemini 3.1 Flash-Lite $0.25 $1.50 363
Grok 4.1 Fast $0.20 $0.50 145
Gemini 2.5 Flash-Lite $0.10 $0.40 366
GPT-5 mini $0.25 $2.00 71
Claude 4.5 Haiku $1.00 $5.00 108

출처: Google DeepMind Model Card (2026.03.03), 캐싱 미적용 기준

Grok 4.1 Fast의 출력 토큰 가격은 $0.50으로, Flash-Lite($1.50) 대비 정확히 3분의 1 수준입니다. Gemini 2.5 Flash-Lite는 출력 토큰이 $0.40으로, Flash-Lite보다 73% 저렴합니다. 즉 “최저가 Gemini”라는 설명에서 입력 가격만 보면 맞지만, 출력이 주가 되는 생성 워크로드에서는 오히려 이전 세대인 2.5 Flash-Lite보다 출력 비용이 3.75배 비싸집니다.

💡 공식 발표문과 실제 가격표를 함께 놓고 보니 이런 차이가 보였습니다.
Flash-Lite는 입력이 많고 출력이 적은 분류(classification) 작업에서 최저 비용이 맞습니다. 하지만 긴 텍스트를 생성하거나 요약·번역처럼 출력 토큰이 많은 작업이라면 Gemini 2.5 Flash-Lite가 여전히 더 저렴합니다. “어떤 작업을 할 것인가”에 따라 최적 모델이 달라집니다.

출력 토큰이 전체 비용에서 차지하는 비중은 작업에 따라 크게 달라집니다. 콘텐츠 분류처럼 짧은 레이블(“긍정”, “부정”)만 반환하는 경우 출력 토큰은 2~5개 수준이라 $1.50의 영향이 미미합니다. 반면 고객 지원 자동화처럼 평균 200~500 토큰짜리 답변을 생성하는 경우라면, 같은 조건에서 Grok 4.1 Fast 대비 3배의 출력 비용 차이가 직접 나타납니다.

벤치마크에서 보이는 천장

구글이 공식적으로 제시한 벤치마크 수치에서 Flash-Lite는 같은 경량 티어 모델들을 압도하는 수치를 보여줍니다. GPQA Diamond 86.9%, MMMU-Pro 76.8%, 다국어 Q&A(MMMLU) 88.9%는 동일 가격대 모델 중 상당히 높은 수준입니다. (출처: Google DeepMind Model Card, 2026.03.03)

그런데 LayerLens의 독립 평가 결과에서 GPQA Diamond는 72.2%로 측정됐습니다. 구글 공식 수치(86.9%)와 14.7%포인트 차이가 납니다. 이 차이는 평가 방식의 차이에서 비롯됩니다. 구글은 thinking_level을 높여 추론 깊이를 최대화한 조건(High 설정)에서 측정했고, LayerLens는 기본 설정을 적용했습니다. 이는 공식 문서에 “Gemini 3.1 Flash-Lite High”라고 명시된 조건인데, 실제 운영에서 High thinking을 항상 켜두면 레이턴시와 토큰 소모가 함께 늘어납니다.

Flash-Lite가 명확한 한계를 보이는 구간도 있습니다. AIME 2025(대회 수준 수학)에서 16.7%, HLE(어려운 언어 추론)에서 8.5%를 기록했습니다. (출처: LayerLens Stratix, 2026.03.05) 이건 플래그십 모델과 비교할 수 없는 수준이고, 구글도 이 모델을 “프론티어 추론 모델이 아니라 효율화 모델”로 포지셔닝했습니다. 솔직히 이 점은 구글이 명확하게 공시한 부분입니다.

함수 호출(Function Calling) 성능은 BFCL v3 기준 76.5%로, LayerLens가 “생산 에이전트 워크플로에서의 실용 임계치인 70%를 초과한다”고 평가한 수치입니다. 이건 단순 텍스트 생성이 아니라 도구를 활용하는 에이전트 파이프라인에서도 쓸 만하다는 의미로 해석할 수 있습니다.

공식 발표문에서 빠진 한 가지

구글 공식 블로그는 “번역, 콘텐츠 분류, UI 생성, 시뮬레이션 생성”을 Flash-Lite의 대표 사용 사례로 제시했습니다. 그런데 공식 개발자 문서(출처: Google AI for Developers, 2026.03.03)를 직접 읽으면 하나 더 있습니다. 바로 “모델 라우터(Model Routing)”로 쓰는 방식입니다.

개발자 문서에는 오픈소스 Gemini CLI가 실제로 Flash-Lite를 복잡도 분류기로 사용해 Flash와 Pro 중 어느 모델로 요청을 보낼지 판단하는 구조를 소개합니다. 쉽게 말하면, 비싼 모델을 아무 요청에나 쓰는 대신 저렴하고 빠른 Flash-Lite로 먼저 “이 요청이 복잡한가, 단순한가?”를 판별하고, 복잡한 경우에만 Pro나 Flash로 전달하는 계층 구조입니다.

💡 가격표와 API 문서를 함께 봤을 때 드러나는 부분입니다.
Flash-Lite를 직접 최종 사용 모델로만 평가하면, 출력 토큰 비용 문제가 걸립니다. 그런데 라우터로 쓰는 구조에서는 Flash-Lite가 처리하는 실제 출력은 “Flash” 혹은 “Pro” 같은 짧은 레이블 몇 개로 끝나기 때문에 출력 토큰 비용이 사실상 0에 가깝습니다. 이 구조에서 Flash-Lite의 낮은 입력 토큰 가격($0.25)과 빠른 속도(363 t/s)는 최대 강점으로 작동합니다.

이게 중요한 이유는, 플래그십 모델 하나로 모든 요청을 처리하는 것보다 라우터 구조를 도입하면 전체 API 비용이 이론상 50~70%까지 줄 수 있기 때문입니다(실제 절감률은 작업 유형과 복잡도 비율에 따라 달라지므로 확인 필요). 개발자 문서에서 직접 코드 예시까지 제공하고 있어서, 구글이 Flash-Lite를 라우터 용도로 공식 포지셔닝하고 있다고 보는 게 맞습니다.

어떤 상황에서 쓸 만한지 실제로 따져봤습니다

지금까지 수치들을 정리하면 Flash-Lite가 맞는 경우와 맞지 않는 경우가 명확하게 갈립니다. 공식 발표문이 강조하는 “저렴한 모델”이라는 설명 하나로 도입 결정을 내리기엔 조건이 있습니다.

Flash-Lite가 맞는 상황

입력 대비 출력이 짧은 작업, 특히 텍스트 분류, 언어 감지, 감정 분석, 이미지 레이블링처럼 짧은 레이블을 반환하는 고볼륨 파이프라인에서 강점이 있습니다. 하루 수십만~수백만 건 처리가 필요한데 레이턴시가 2초 이하여야 하는 경우, 현재 MMLU Pro 80%+ 정확도 클래스에서 Flash-Lite가 사실상 유일한 옵션입니다. 앞서 언급한 모델 라우터 구조도 여기에 포함됩니다.

Flash-Lite 대신 다른 모델을 고려해야 하는 상황

긴 텍스트를 생성하거나 요약·번역처럼 출력 토큰이 많이 나오는 작업이라면, Gemini 2.5 Flash-Lite($0.40/1M 출력)가 Flash-Lite보다 출력 비용이 73% 저렴합니다. 단순히 더 저렴한 선택지를 원한다면 전 세대 모델이 더 유리한 셈입니다. 또한 경쟁 수학이나 복잡한 다단계 추론이 필요한 경우, AIME 2025에서 16.7%라는 수치는 이 모델로 해결이 어렵다는 것을 공식적으로 보여줍니다. 이미지·오디오 생성이 필요한 작업은 아예 지원하지 않으므로 해당 기능은 처음부터 고려 대상 밖입니다.

프리뷰 상태라는 점도 감안해야 합니다

2026년 3월 현재 Flash-Lite는 프리뷰 버전으로만 제공됩니다. 모델 ID가 gemini-3.1-flash-lite-preview인 이유입니다. LayerLens도 보고서에서 “프리뷰 상태에서 측정한 수치이며 GA(정식 출시) 후 달라질 수 있다”고 명시했습니다. 프로덕션 시스템에 도입할 경우 정식 버전 출시 후 재검증이 필요합니다.

Q&A


Google AI Studio에서 API 키를 발급받으면 사용량 제한 내에서 무료로 테스트할 수 있습니다. 무료 티어 한도는 공식 Rate Limits 페이지에서 확인해야 합니다. 현재 프리뷰 버전이기 때문에 무료 한도가 GA 이후 달라질 수 있다는 점은 감안해야 합니다.

Flash-Lite는 Gemini 3 Flash에서 한 단계 더 경량화된 모델입니다. 가격 기준으로 Flash는 입력 $0.50/1M, 출력 $3.00/1M인 데 비해 Flash-Lite는 입력 $0.25/1M, 출력 $1.50/1M입니다. 속도는 Flash-Lite가 363 t/s, Flash가 249 t/s로 Flash-Lite가 더 빠릅니다. 다만 복잡한 추론 작업에서는 Flash의 성능이 더 높고, Flash는 SWE-bench Verified 78%의 에이전트 코딩 성능을 갖추고 있습니다. (출처: Google DeepMind Model Card, 2026.03.03)
Thinking(추론) 레벨을 높이면 성능이 얼마나 달라지나요?

공식 문서에 따르면 Flash-Lite의 thinking_level 기본값은 “minimal”입니다. 이를 “high”로 올리면 내부 추론 깊이가 증가하며, 구글 공식 발표 GPQA Diamond 점수는 High 조건 기준인 86.9%입니다. 반면 LayerLens의 기본 설정 조건에서는 72.2%로 측정됐습니다. thinking_level을 높이면 정확도는 올라가지만 레이턴시와 토큰 소모가 함께 증가하므로, 고볼륨 저비용이 목표라면 기본 또는 minimal로 유지하는 것이 실제 운영에 맞습니다.
한국어 지원 품질은 어떻게 되나요?

공식 벤치마크 중 MMMLU(다국어 Q&A)에서 88.9%를 기록했고, 이는 경쟁 모델 중 가장 높은 수치입니다(GPT-5 mini 84.9%, Grok 4.1 Fast 86.8% 대비). (출처: Google DeepMind Model Card, 2026.03.03) 한국어를 포함한 다국어 처리 성능은 경량 모델 중 상위권에 속합니다. 다만 MMMLU는 다국어 전반을 아우르는 벤치마크로, 한국어 단독 성능 수치는 현재 공개된 자료에서 별도로 확인되지 않아 직접 검증이 필요합니다.
현재 프리뷰 버전인데, 정식 출시는 언제인가요?

2026년 3월 18일 현재 구글은 정식 GA(General Availability) 일정을 공개하지 않았습니다. 현재 모델 ID는 gemini-3.1-flash-lite-preview로 제공 중이며, GA 전환 시 가격·기능·성능 수치가 변경될 수 있습니다. 구글의 Gemini API 공식 릴리스 노트(changelog 페이지)에서 업데이트를 확인하는 것을 권장합니다.

마치며

다만 긴 출력이 주가 되는 작업이나 심화 추론이 필요한 작업은 다른 모델이 더 적합합니다. 출력 토큰 $1.50은 Grok 4.1 Fast의 3배, 전 세대 Gemini 2.5 Flash-Lite의 3.75배입니다. “저렴하다”는 말이 어떤 축 기준인지 먼저 확인하고 도입 여부를 판단하는 게 맞습니다.

모델 라우터로 쓰는 구조는 상당히 실용적인 접근입니다. Flash-Lite가 분류기 역할을 하면 출력은 몇 글자 레이블로 끝나므로 출력 토큰 비용 문제가 사라지고, 전체 파이프라인 비용을 낮출 수 있습니다. 구글이 공식 개발자 문서에 직접 코드까지 제시한 방식이라는 점에서, 이 모델을 어떻게 배치할지 고민할 때 가장 먼저 고려해볼 만한 선택지입니다.

본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
  2. Google DeepMind — Gemini 3.1 Flash-Lite Model Card (2026.03.03)
  3. Google AI for Developers — Gemini 3.1 Flash-Lite Preview 개발자 문서 (2026.03.03)
  4. LayerLens — Gemini 3.1 Flash Lite Benchmark Results (2026.03.05)
  5. Google AI for Developers — Gemini 3 개발자 가이드 (thinking levels, 가격표 포함)

본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 현재 기준: 2026.03.18 / gemini-3.1-flash-lite-preview (March 2026). 본문의 모든 수치는 공식 발표 및 독립 벤치마크 출처를 명시했으며, 프리뷰 버전 기준으로 GA 전환 후 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기