Gemini 3.1 Flash-Lite, 절반 가격이라고요? 기준이 다릅니다

Published on

in

Gemini 3.1 Flash-Lite, 절반 가격이라고요? 기준이 다릅니다

2026.03.24 기준
gemini-3.1-flash-lite-preview
공개 프리뷰 단계

Gemini 3.1 Flash-Lite, 절반 가격이라고요? 기준이 다릅니다

구글이 “3 Flash의 절반 가격”이라고 홍보하는 Gemini 3.1 Flash-Lite. 그런데 비교 대상을 살짝 바꾸면 전 세대 Flash-Lite보다 4배 비쌉니다. 공식 Model Card 수치와 실사용 후기를 함께 놓고 직접 따져봤습니다.

입력 가격
$0.25/1M tokens
출력 속도
363 t/s
컨텍스트
1M tokens
출시일
2026.03.03

“절반 가격”이라는 말의 함정

구글은 Gemini 3.1 Flash-Lite 발표 블로그에서 “비슷한 티어의 다른 모델 대비 비용 효율이 높다”고 강조합니다. 공식 발표 차트에는 GPT-5 mini, Claude 4.5 Haiku, Grok 4.1 Fast와의 비교가 등장합니다. 그리고 OpenRouter는 이 모델을 “Gemini 3 Flash의 절반 가격”으로 소개합니다. (출처: OpenRouter 모델 페이지, 2026.03.03)

그런데 같은 구글 계열의 이전 세대인 Gemini 2.5 Flash-Lite와 비교하면 이야기가 달라집니다. 공식 Model Card 수치를 직접 보면 이렇습니다.

💡 공식 Model Card와 가격 페이지를 나란히 놓고 보니 이런 차이가 보였습니다

  • Gemini 3.1 Flash-Lite: 입력 $0.25 / 출력 $1.50 (1M 토큰당)
  • Gemini 2.5 Flash-Lite: 입력 $0.10 / 출력 $0.40 (1M 토큰당)

출력 기준으로 전 세대 Flash-Lite 대비 3.75배 더 비쌉니다. (출처: Google DeepMind Model Card, 2026.03.03)

실제로 에이전트나 배치 파이프라인처럼 출력 토큰이 많이 나오는 워크로드라면, 기존 2.5 Flash-Lite로 한 달에 $10 쓰던 팀이 같은 작업을 3.1 Flash-Lite로 돌리면 $37.5를 낼 수 있다는 계산이 나옵니다. “절반 가격”의 기준이 전 세대가 아니라 현재 세대의 더 큰 모델(3 Flash)이라는 점, 먼저 알고 선택해야 합니다.

물론 이 가격 인상에는 이유가 있습니다. 3 시리즈 아키텍처를 기반으로 한 멀티모달 처리 능력, Thinking 기능 기본 내장, 그리고 속도 개선이 함께 따라옵니다. 그게 합리적 교환인지를 판단하는 게 이 글의 핵심입니다.

▲ 목차로 돌아가기

공식 벤치마크로 보는 진짜 위치

Google DeepMind가 직접 공개한 Model Card(2026.03.03)에 수록된 벤치마크 수치입니다. 숫자가 나타내는 맥락을 함께 확인하는 게 중요합니다.

벤치마크 3.1 Flash-Lite 2.5 Flash-Lite GPT-5 mini Claude 4.5 Haiku
입력 가격 $0.25 $0.10 $0.25 $1.00
출력 가격 $1.50 $0.40 $2.00 $5.00
출력 속도(t/s) 363 366 71 108
GPQA Diamond 86.9% 66.7% 82.3% 73.0%
MMMU-Pro(멀티모달) 76.8% 51.0% 74.1% 58.0%
LiveCodeBench(코딩) 72.0% 34.3% 80.4% 53.2%
컨텍스트 윈도우 1M 토큰 1M 토큰 400K 토큰 200K 토큰

(출처: Google DeepMind Gemini 3.1 Flash-Lite Model Card, 2026.03.03 / deepmind.google)

표를 보면 GPQA Diamond(과학적 추론)와 MMMU-Pro(멀티모달)에서 동 가격대 경쟁 모델을 제치는 건 사실입니다. 특히 2.5 Flash-Lite 대비 멀티모달 추론이 25.8%p 올랐는데, 이건 단순 버전 업이 아니라 아키텍처 자체가 Gemini 3 Pro 기반으로 바뀐 효과입니다. (출처: DeepMind Model Card — “Gemini 3.1 Flash-Lite is based on Gemini 3 Pro”)

다만 코딩 벤치마크(LiveCodeBench)에서는 GPT-5 mini(80.4%)에 밀립니다. 72.0%는 나쁜 숫자가 아니지만, “이 티어에서 코딩만큼은 GPT-5 mini가 낫다”는 공식 수치가 존재한다는 사실은 기억해둘 만합니다.

▲ 목차로 돌아가기

1M 컨텍스트와 Thinking — 실제로 쓸 수 있는 구조

Gemini 3.1 Flash-Lite가 이전 Flash-Lite 세대와 결정적으로 다른 점은 두 가지입니다. 첫째, 1M 토큰 컨텍스트 윈도우. 둘째, Thinking 기능 기본 내장. 공식 API 문서(ai.google.dev, 2026.03.18 업데이트)에 두 항목 모두 Supported로 명시돼 있습니다.

💡 구조를 보니 다른 Flash 모델을 교체하는 라우터로 쓸 수 있었습니다

구글 공식 개발자 문서는 Flash-Lite의 핵심 사용 사례 중 하나로 “모델 라우팅”을 명시합니다. 요청의 복잡도를 Flash-Lite로 분류해 단순한 건 Flash-Lite가 처리하고, 복잡한 건 Flash나 Pro로 넘기는 구조입니다. Gemini CLI 오픈소스에서 이 패턴을 실제로 사용 중입니다. (출처: ai.google.dev, 2026.03.18)

Thinking은 minimal·low·medium·high 네 단계로 조정할 수 있습니다. (출처: OpenRouter 모델 페이지) 이 구조가 유용한 이유는, 같은 모델 하나로 “초고속 단순 번역”과 “어느 정도 추론이 필요한 분류 작업”을 다 커버할 수 있기 때문입니다. 비용을 아끼려면 minimal, 정확도가 중요하면 high로 레버를 당기면 됩니다.

컨텍스트 1M 토큰은 약 A4 1,500페이지 분량입니다. 반면 GPT-5 mini는 400K 토큰(약 600페이지), Claude 4.5 Haiku는 200K 토큰(약 300페이지)입니다. 긴 PDF를 넣거나, 다수의 문서를 동시에 처리하는 파이프라인에서는 이 컨텍스트 차이가 실질적인 아키텍처 선택으로 이어집니다. 한 번에 더 많은 문서를 쑤셔넣을 수 있으니 API 호출 횟수 자체가 줄어듭니다.

단, 1M 컨텍스트를 꽉 채워 넣으면 입력 토큰 비용도 비례해서 올라갑니다. 컨텍스트 캐싱(Context Caching)을 API 문서에서 지원한다고 명시하고 있으므로, 반복적으로 동일 문서를 참조하는 워크로드라면 캐싱을 쓰는 게 비용 관리의 핵심입니다. (출처: ai.google.dev, 2026.03.18)

▲ 목차로 돌아가기

에이전트로 쓰면 막히는 이유

구글의 공식 설명은 이 모델을 “고빈도 단순 작업”에 최적화됐다고 명시합니다. 그런데 실제로 멀티스텝 에이전트로 써보면 예상과 다른 상황이 생깁니다.

⚠️ 실사용에서 보고된 제한 사항

Reddit r/Bard 커뮤니티(2026.03.09)에서 여러 개발자가 동일한 패턴을 보고했습니다. “스크롤 7번 내려라”는 명령을 줬을 때 1~2번만 하고 멈추는 현상입니다. 모델이 충분한 정보를 얻었다고 판단하면 나머지 지시를 무시하고 Finish_reason=STOP을 리턴합니다.

이건 버그가 아니라 설계상 특성에 가깝습니다. “지능과 비용 최적화”라는 목표 아래, 모델이 작업 완료를 스스로 판단해 조기 종료하는 방향으로 훈련됐습니다. 절차적 명령 준수보다 답의 효율적 도출을 우선시하는 구조입니다.

반대로 이 특성이 장점이 되는 경우도 있습니다. 한 개발자는 “AI 서비스에 투입했더니 2.5 Pro가 해내던 로드를 3.1 Flash-Lite이 20배 빠른 속도로 처리한다”고 보고했습니다. 복잡한 추론이 아니라 빠른 응답 처리량이 필요한 서비스라면 오히려 이 조기 종료 특성이 효율이 됩니다.

결론은 단순합니다. 멀티스텝 복잡 에이전트, 정해진 순서대로 반드시 도구를 여러 번 호출해야 하는 워크플로우에는 Gemini 3 Flash 또는 Pro를 쓰는 게 낫습니다. Flash-Lite는 각 스텝이 독립적이고 단순한 파이프라인에 어울립니다.

▲ 목차로 돌아가기

이 모델을 쓰면 유리한 딱 세 가지 상황

공식 API 문서(ai.google.dev, 2026.03.18)와 실제 사용 사례를 교차해서 유리한 케이스를 정리했습니다.

1
이미지·영상 포함 대규모 번역 파이프라인

챗 메시지, 리뷰, 고객 서비스 티켓 등 하루 수십만 건을 처리하는 번역 작업에서 빛납니다. GPT-5 mini 대비 출력 속도가 5배 이상 빠르고(363 vs 71 t/s), 이미지·오디오·PDF를 직접 넣을 수 있어 별도 전처리 파이프라인이 필요 없습니다. 출력 토큰이 많지 않은 번역 작업에서는 $1.50/1M 출력 가격도 부담이 크지 않습니다.

2
멀티모달 콘텐츠 분류·태깅

패션 플랫폼 Whering의 실제 사례처럼 이미지에서 상품 속성을 추출하거나, 대규모 콘텐츠 모더레이션에서 이미지+텍스트를 동시에 분류하는 작업에 적합합니다. MMMU-Pro 76.8%는 동 가격대에서 최고 수준입니다. 스트럭처드 JSON 출력을 공식 지원하므로 파이프라인 연결이 깔끔합니다.

3
모델 라우터 (복잡도 분류기)

요청이 들어올 때마다 이걸 Flash-Lite가 처리할 수 있는지, Pro가 필요한지 먼저 판단시키는 용도입니다. 빠르고 저렴한 Flash-Lite가 분류만 하고, 복잡한 건 상위 모델로 넘기면 전체 비용이 크게 줄어듭니다. Gemini CLI 오픈소스에서 실제로 이 패턴을 사용 중이고 공식 문서에서도 명시한 사용 사례입니다. (출처: ai.google.dev, 2026.03.18)

▲ 목차로 돌아가기

경쟁 모델과 숫자로 비교

가격과 성능을 동시에 보지 않으면 판단을 잘못 내리기 쉽습니다. 공식 Model Card(Google DeepMind, 2026.03.03) 수치 기준으로 정리했습니다.

💡 가격표만 보면 보이지 않는 구조가 있었습니다

Grok 4.1 Fast는 입력 $0.20, 출력 $0.50로 3.1 Flash-Lite보다 저렴합니다. 코딩 특화 워크로드라면 GPT-5 mini(LiveCodeBench 80.4%)가 더 나을 수 있습니다. 그런데 1M 컨텍스트 + 멀티모달 + Thinking을 한 모델에서 이 가격에 쓸 수 있는 건 현재 시점에서 3.1 Flash-Lite뿐입니다.

항목 3.1 Flash-Lite GPT-5 mini Claude 4.5 Haiku Grok 4.1 Fast
입력 $ $0.25 $0.25 $1.00 $0.20
출력 $ $1.50 $2.00 $5.00 $0.50
속도(t/s) 363 71 108 145
컨텍스트 1M 400K 200K
Thinking ✅ 4단계 ✅ (high만)
멀티모달 ✅ 영상·오디오 ✅ 이미지만 ✅ 이미지만

(출처: Google DeepMind Model Card 2026.03.03 / Artificial Analysis 비교 페이지)

속도에서 3.1 Flash-Lite는 GPT-5 mini 대비 5.1배, Claude 4.5 Haiku 대비 3.4배 빠릅니다. 초당 응답이 필요한 실시간 서비스에서 이 차이는 체감으로 이어집니다.

단, 비용만 보면 Grok 4.1 Fast($0.20/$0.50)가 여전히 더 저렴합니다. 멀티모달(영상·오디오까지)과 1M 컨텍스트가 필요 없는 텍스트 전용 고빈도 워크로드라면 Grok을 먼저 검토할 이유가 생깁니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q. Gemini 3.1 Flash-Lite를 무료로 쓸 수 있나요?
Google AI Studio에서 API 키를 발급하면 무료 티어로 사용 가능합니다. 단, 프리뷰 단계이므로 무료 한도와 요청 제한은 별도로 확인해야 합니다. 기업 워크로드는 Vertex AI를 통해 유료로 이용할 수 있습니다. (출처: ai.google.dev)
Q. 2.5 Flash-Lite를 아직 쓰고 있는데 지금 당장 교체해야 하나요?
서두를 필요는 없습니다. 2.0 Flash-Lite는 2026년 3월 31일에 종료됩니다. 하지만 2.5 Flash-Lite는 별도 공지가 없습니다. 배치 작업처럼 비용이 많이 드는 워크로드라면 2.5 Flash-Lite가 여전히 더 저렴할 수 있습니다. 멀티모달 능력이나 Thinking이 필요해질 시점에 전환을 고려하면 됩니다.
Q. Thinking을 high로 설정하면 비용이 얼마나 늘어나나요?
Thinking 토큰도 출력 토큰으로 과금됩니다. high로 설정하면 내부 추론 토큰이 늘어나 비용이 오릅니다. 구글은 이유를 공개하지 않았지만, Thinking 토큰에 별도 요금이 붙지 않는 현재 구조에서는 출력 토큰 단가인 $1.50/1M이 그대로 적용될 가능성이 높습니다. 정확한 구조는 Google AI Studio에서 실제 토큰 수를 확인하는 게 가장 빠릅니다.
Q. 한국어 처리 성능은 어떤가요?
공식 벤치마크인 MMMLU(다국어 Q&A)에서 88.9%로 GPT-5 mini(84.9%)와 Claude 4.5 Haiku(83.0%)를 앞섭니다. (출처: DeepMind Model Card, 2026.03.03) 한국어가 포함된 다국어 워크로드에서 비교적 안정적인 성능을 기대할 수 있습니다. 다만 벤치마크가 실제 서비스 한국어 품질을 완전히 반영하지는 않으므로 직접 테스트를 권장합니다.
Q. 지식 학습 기준일이 언제인가요?
2025년 1월로 명시돼 있습니다. (출처: Vertex AI 공식 문서, 2026.03.03) 2025년 2월 이후 사건이나 데이터에 대한 질문에는 부정확한 답변이 나올 수 있습니다. 최신 정보가 필요한 경우 Google Search 그라운딩 기능을 함께 사용하면 됩니다.

▲ 목차로 돌아가기

마치며 — 이 모델을 선택하기 전에 따져볼 한 가지

Gemini 3.1 Flash-Lite는 구글이 경량 모델 시장에서 처음으로 Gemini 3 계열 아키텍처를 저가 모델에 이식한 사례입니다. GPQA Diamond 86.9%, MMMU-Pro 76.8%, 출력 속도 363 t/s는 동 가격대에서 눈에 띄는 수치입니다. 멀티모달을 영상·오디오까지 지원하면서 1M 컨텍스트와 Thinking을 함께 제공하는 모델은 현재 이 가격대에 흔하지 않습니다.

그런데 이 모델을 선택하기 전에 솔직하게 물어봐야 할 게 있습니다. “기존에 쓰던 게 2.5 Flash-Lite인가, 3 Flash인가?” 2.5 Flash-Lite에서 넘어온다면 비용이 오릅니다. 3 Flash에서 넘어온다면 비용이 줄어들고 속도가 올라가는 대신, 복잡한 다단계 작업에서 성능이 떨어질 수 있습니다.

출시된 지 3주가 지났습니다. 에코시스템이 쌓이면서 실사용 데이터도 늘어나고 있습니다. 지금 당장 전환보다는 작은 워크로드로 먼저 A/B 테스트해보는 게 가장 현실적인 접근입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Google 공식 블로그 — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
  2. Google DeepMind — Gemini 3.1 Flash-Lite Model Card (2026.03.03)
  3. Google AI for Developers — Gemini 3.1 Flash-Lite Preview API 문서 (2026.03.18 업데이트)
  4. Google Cloud Vertex AI — Gemini 3.1 Flash-Lite 모델 사양 (2026.03.21 기준)
  5. Artificial Analysis — Gemini 3.1 Flash-Lite vs GPT-5 mini 벤치마크 비교

본 포스팅은 2026년 3월 24일 기준으로 작성되었으며, 공개 프리뷰(Preview) 단계의 모델을 다룹니다. Gemini 3.1 Flash-Lite는 이후 정식 출시 시 가격·기능·사양이 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 공식 Google AI 개발자 문서를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기