Gemini 3.1 Flash-Lite, 실제 비용 직접 재봤습니다

Published on

in

Gemini 3.1 Flash-Lite, 실제 비용 직접 재봤습니다

2026.03.03 출시 / gemini-3.1-flash-lite-preview 기준
Vertex AI · Google AI Studio

Gemini 3.1 Flash-Lite, 실제 비용 직접 재봤습니다

“Pro의 1/8 가격”이라는 문구가 눈에 들어왔습니다. 구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite의 공식 소개 문장입니다. 그런데 이 말이 어떤 조건에서 성립하는지 따져보면 숫자가 달라집니다. 출력 토큰 기준으로 계산하면 직전 세대인 2.5 Flash-Lite보다 오히려 비쌉니다. 공식 가격표와 실사용 데이터를 직접 뜯어봤습니다.

$0.25
입력 100만 토큰당
$1.50
출력 100만 토큰당
1M
컨텍스트 윈도우
363 t/s
출력 속도 (공식 벤치마크)

“1/8 가격”이 맞는 순간과 틀리는 순간

결론부터 말씀드리면, “Gemini 3.1 Flash-Lite는 Pro 대비 1/8 가격”이라는 말은 입력 토큰 기준으로만 성립합니다. 공식 가격표를 보면 3.1 Pro의 입력 단가는 100만 토큰당 $2.00이고, 3.1 Flash-Lite는 $0.25입니다. 나누면 정확히 1/8입니다. (출처: Google Cloud Vertex AI 가격 책정 페이지, 2026.03)

💡 공식 가격표와 실제 호출 패턴을 같이 놓고 보니 이런 차이가 보였습니다.

출력 토큰은 이야기가 다릅니다. 3.1 Pro의 출력 단가는 $12.00/1M이고, 3.1 Flash-Lite는 $1.50/1M — 이건 1/8이 맞습니다. 그런데 여기서 비교 대상을 직전 세대인 2.5 Flash-Lite로 바꾸면 완전히 달라집니다. 2.5 Flash-Lite의 출력 단가는 $0.40/1M입니다. 3.1 Flash-Lite($1.50)는 2.5 Flash-Lite 대비 출력 비용이 3.75배 비쌉니다. (출처: Google Cloud Vertex AI 가격 책정 페이지, 2026.03)

실제 API를 주로 쓰는 개발자 입장에서는 입력보다 출력 토큰 비용이 훨씬 크게 잡힙니다. 챗봇이나 요약 서비스처럼 출력이 긴 작업일수록 “싸다”는 느낌이 줄어듭니다. 출력이 1:5 비율(입력 1M, 출력 5M)이라면 총 비용은 $7.75인데, 2.5 Flash-Lite로 같은 호출을 하면 $2.25에 끝납니다. 조건이 다르면 숫자가 3배 이상 벌어집니다.

모델 입력 ($/1M) 출력 ($/1M)
Gemini 3.1 Flash-Lite $0.25 $1.50
Gemini 2.5 Flash-Lite $0.10 $0.40
Gemini 3 Flash $0.50 $3.00
Gemini 3.1 Flash $0.50 $3.00
Gemini 3.1 Pro $2.00 $12.00
GPT-5 mini $0.25 $2.00
Claude 4.5 Haiku $1.00 $5.00

(출처: Google Cloud Vertex AI 가격 책정 페이지, DeepMind Model Card, 2026.03)

입력 단가만 보면 GPT-5 mini($0.25)와 동률이지만, 출력 단가에서 Flash-Lite($1.50) 대 GPT-5 mini($2.00)로 Flash-Lite가 25% 저렴합니다. 어떤 모델과 비교하느냐에 따라 “싸다”는 결론 자체가 달라집니다.

▲ 목차로 돌아가기

공식 벤치마크에서 직접 뽑은 숫자들

구글 DeepMind가 2026년 3월 공개한 공식 모델 카드에는 경쟁 모델과의 벤치마크 비교 수치가 들어 있습니다. 여기서 눈에 띄는 부분이 있습니다.

GPQA Diamond(과학적 추론)에서 Flash-Lite는 86.9%를 기록했습니다. 이 수치는 같은 비교표에 있는 Claude 4.5 Haiku(73.0%), GPT-5 mini(82.3%), Grok 4.1 Fast(84.3%)를 모두 앞섭니다. 라이트 등급 모델이 더 무거운 경쟁 모델보다 추론 점수가 높다는 뜻입니다. (출처: Google DeepMind Gemini 3.1 Flash-Lite Model Card, 2026.03)

💡 벤치마크 점수와 실제 비용 사이를 같이 놓고 보면 놓치기 쉬운 숫자가 하나 나옵니다.

Artificial Analysis의 독립 평가에서 Flash-Lite는 Intelligence Index 벤치마크 실행 시 53M 토큰을 생성했습니다. 비교 대상 평균은 20M 토큰입니다. 똑같은 작업에서 Flash-Lite는 평균 모델보다 2.65배 많은 출력 토큰을 씁니다. (출처: Artificial Analysis, 2026.03) 성능이 좋아 보이는 벤치마크 점수가 실제로는 더 많은 토큰 소비를 통해 나온 것일 수 있습니다.

출력 속도는 공식 벤치마크 기준 363 토큰/초입니다. 같은 표에서 GPT-5 mini(71 t/s), Claude 4.5 Haiku(108 t/s), Grok 4.1 Fast(145 t/s)와 비교하면 압도적입니다. 실시간 응답이 필요한 서비스에서 체감 차이가 날 수 있는 수치입니다. (출처: Google DeepMind Model Card, 2026.03)

단, 아레나(Arena.ai) Elo 점수는 1432로 동급 평균보다 높지만, Humanity’s Last Exam(복잡한 학술 추론) 점수는 16.0%로 Grok 4.1 Fast(17.6%)와 GPT-5 mini(16.7%)에 소폭 밀립니다. 단순 속도나 과학 추론 외에 복잡한 오픈엔디드 문제에서는 절대적인 우위가 아닙니다.

▲ 목차로 돌아가기

Thinking Level이 높을수록 더 잘 따른다고요?

3.1 Flash-Lite의 핵심 기능 중 하나가 Thinking Levels입니다. AI Studio와 Vertex AI에서 모델이 얼마나 깊이 생각할지 조절할 수 있는 파라미터입니다. 구글의 공식 설명에 따르면 “개발자가 작업에 따라 모델의 사고 깊이를 조절할 수 있다”는 것이 핵심 장점입니다. (출처: Google Blog, 2026.03.03)

💡 공식 설명과 실사용 로그를 같이 놓고 보니 이런 차이가 보였습니다.

Reddit에 올라온 실사용 보고(2026.03.09)에 따르면 멀티스텝 에이전트 작업에서 reasoning_effort="high"를 적용해도 지시 이행 문제가 해결되지 않았습니다. 모델 자체가 “충분한 정보를 확보했다”고 판단하면 나머지 지시를 무시하고 멈추는 이른바 Finish_reason=STOP 조기 종료 버그가 2026.03.04부터 보고되고 있습니다. “High Reasoning이 High Compliance를 뜻하지 않는다”는 피드백이 다수입니다. Google이 공식 답변을 내놓지 않은 부분입니다.

실제 워크플로우에서 이 버그가 걸리는 조건이 있습니다. 여러 스텝의 Tool Call이 순서대로 실행돼야 하는 에이전트 파이프라인에서, 모델이 초기 응답만으로 목표 달성이 가능하다고 판단할 때입니다. 페이지 스크롤을 7번 반복하라는 지시를 1~2번 만에 종료하는 사례가 대표적입니다.

이 동작은 Flash-Lite의 설계 방향(“고빈도·저지연·비용 최소화”)과 맞닿아 있습니다. 비용을 줄이기 위해 모델이 “Greedy Search” 방식으로 최단 경로를 찾는 구조인데, 이것이 절차 준수보다 결과 최적화를 우선시하는 결과로 이어지는 것으로 보입니다. 멀티스텝 에이전트 작업보다는 단발성 번역·분류·요약 작업에 더 적합합니다.

▲ 목차로 돌아가기

Batch·Flex 모드를 쓰면 2.5 Flash-Lite와 격차가 좁혀집니다

3.1 Flash-Lite를 Standard PayGo로만 쓰면 2.5 Flash-Lite 대비 출력 비용이 3.75배 비싸지만, Vertex AI의 Flex PayGo 또는 Batch API를 활용하면 계산이 달라집니다. Flex PayGo는 Standard 대비 50% 할인이 적용됩니다. (출처: Google Cloud Vertex AI Flex PayGo 문서, 2026.03)

Batch API 기준으로 3.1 Flash-Lite의 출력 단가는 $0.75/1M입니다. 이 시점에서 2.5 Flash-Lite Standard($0.40/1M)와의 차이가 약 1.9배로 줄어듭니다. 여기에 2.5 Flash-Lite도 Batch 모드를 적용하면 $0.20/1M까지 내려가므로, 절대 비용은 여전히 2.5 Flash-Lite가 저렴합니다. 단, 3.1 Flash-Lite의 성능·속도 차이를 비용 대비로 따질 때는 Batch 모드 조합을 기준으로 비교하는 게 현실적입니다.

출력 토큰 비용 비교 ($/1M 토큰, 출처: Vertex AI 공식 가격표, 2026.03)
모델 Standard Flex/Batch (50%↓)
Gemini 3.1 Flash-Lite $1.50 $0.75
Gemini 2.5 Flash-Lite $0.40 $0.20
Gemini 3 Flash $3.00 $1.50

대량 배치 처리(콘텐츠 분류, 번역 파이프라인 등)에서는 Batch 모드를 묶어서 쓸 때 3.1 Flash-Lite가 3 Flash 대비 절반 비용입니다. 3.1 Flash 대신 3.1 Flash-Lite를 Batch로 쓰는 시나리오에서는 이점이 명확합니다.

▲ 목차로 돌아가기

실제로 쓰면 유리한 시나리오 딱 3가지

여기까지 정리하면 Flash-Lite가 무조건 싸거나 좋은 모델이 아님은 분명합니다. 그럼 어떤 상황에서 선택하는 게 맞을까요. 공식 사용 사례와 실사용 후기를 교차하면서 세 가지로 좁혀봤습니다.

① 고빈도 단발성 분류·번역

이커머스 상품 태그 자동 분류, 수만 건 다국어 번역처럼 단건 응답이 짧고 반복 횟수가 많을 때입니다. Whering(패션 앱)이 일관된 아이템 태깅과 데이터 라벨링에 3.1 Flash-Lite를 활용한다고 밝혔습니다. (출처: Google Blog, 2026.03.03) 출력이 짧으면 출력 토큰 단가 불리함이 희석됩니다.

② 실시간 UI 생성·대시보드 렌더링

363 t/s의 출력 속도는 실시간 스트리밍이 들어가는 UI 생성 작업에서 유리합니다. Cartwheel(애니메이션 스타트업)은 멀티모달 라벨링 속도를 이유로 Flash-Lite를 선택했고, “더 큰 등급 모델 수준의 정밀도로 복잡한 입력을 처리한다”고 밝혔습니다. (출처: Google Blog, 2026.03.03) 단, 지시 단계가 여러 번 이어지는 구조는 앞서 언급한 조기 종료 문제가 생길 수 있습니다.

③ 기존 2.5 Flash 기반 서비스의 전환 준비

Gemini 2.0 Flash Lite는 2026년 6월 1일 지원 종료 예정입니다. (출처: Firebase AI Logic 공식 문서, 2026.03) 2.5 Flash-Lite가 아직 운영 중이지만, 장기 마이그레이션을 준비한다면 3.1 Flash-Lite 테스트를 지금 시작해두는 게 나중에 급하게 이전하는 것보다 안전합니다. 특히 성능 요건이 높은 서비스라면 2.5 Flash-Lite와 3.1 Flash-Lite를 A/B 비용으로 같이 놓고 비교해볼 시점입니다.

▲ 목차로 돌아가기

지식 컷오프가 January 2025인 이유

3.1 Flash-Lite의 공식 지식 컷오프는 2025년 1월입니다. (출처: Google Cloud Vertex AI Gemini 3.1 Flash-Lite 모델 카드, 2026.03.21 업데이트) 모델 자체는 2026년 3월에 출시됐는데 지식 데이터는 1년 이상 과거에서 멈춰 있습니다.

💡 공식 스펙과 실제 배포 흐름을 같이 놓고 보면 이 차이가 왜 생겼는지 보입니다.

3.1 Flash-Lite는 “Gemini 3 Pro 기반의 경량 파생 모델”입니다. (출처: DeepMind Model Card) 즉 Gemini 3 Pro의 사전학습 데이터를 그대로 사용하면서 지연 시간과 비용을 최적화한 구조입니다. Gemini 3 Pro의 학습 데이터 컷오프가 2025년 1월이기 때문에, 파생 모델인 3.1 Flash-Lite도 동일한 한계를 가집니다. 그라운딩(Google 검색 연동)을 함께 쓰지 않으면 2025년 이후 사건이나 데이터를 모델이 자체적으로 알 수 없습니다.

최신 정보가 중요한 뉴스 요약, 주가 데이터 처리, 2025년 하반기 이후 법령·정책 분석 등에 Flash-Lite를 단독으로 쓰면 오답이 나올 수 있습니다. 이런 용도라면 Google 검색 그라운딩 기능($35/1,000 API 콜, 구글 지도 제외, 출처: Vertex AI 가격 책정 페이지)을 함께 활성화하거나, RAG(검색 증강 생성) 파이프라인을 별도 구축해야 합니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q1. Gemini 3.1 Flash-Lite는 현재 정식 출시인가요, 프리뷰인가요?
2026년 3월 23일 기준, 공개 프리뷰(Preview) 단계입니다. 모델 ID는 gemini-3.1-flash-lite-preview이며 Google AI Studio 및 Vertex AI에서 사용할 수 있습니다. 정식 GA(General Availability) 전환 일정은 공식 발표가 없는 상태입니다. (출처: Google Cloud Vertex AI 공식 문서, 2026.03.21)
Q2. Gemini API(Google AI Studio)에서 쓸 때 가격이 다른가요?
무료 티어에서는 입출력 모두 무료입니다. 유료 전환 후 Google AI Studio 기준으로도 입력 $0.25/1M, 출력 $1.50/1M으로 Vertex AI와 동일합니다. 다만 컨텍스트 캐시 기능은 AI Studio에서 이용 불가이고 Vertex AI에서만 지원됩니다. (출처: Gemini Developer API Pricing 페이지, 2026.03)
Q3. 2.5 Flash-Lite와 3.1 Flash-Lite 중 어느 쪽이 더 저렴한가요?
출력 토큰 단가 기준으로 2.5 Flash-Lite($0.40/1M)가 3.1 Flash-Lite($1.50/1M)보다 3.75배 저렴합니다. 입력도 2.5 Flash-Lite($0.10/1M)가 더 쌉니다. 그러나 2026년 6월 이후 2.0 Flash Lite는 종료되고, 장기적으로 2.5 Flash-Lite 역시 세대 교체 전환이 예정되어 있으므로, 최저 비용이 최우선이 아니라면 3.1 Flash-Lite의 성능 향상도 함께 고려할 필요가 있습니다.
Q4. Thinking Level은 어떻게 설정하나요?
AI Studio에서는 UI 슬라이더로 조절할 수 있고, API 호출 시에는 thinkingConfig 파라미터에 thinkingBudget 값을 지정합니다. 0으로 설정하면 사고 없이 즉시 응답하고, 높을수록 더 많은 내부 토큰을 소비하며 응답합니다. Thinking 토큰은 출력 토큰 요금($1.50/1M)으로 청구됩니다. (출처: Google Cloud Vertex AI Thinking 문서)
Q5. 멀티스텝 에이전트 작업에 쓰면 안 되나요?
2026년 3월 기준으로는 멀티스텝 Tool Call이 반복되는 에이전트 파이프라인에서 Finish_reason=STOP 조기 종료 버그가 다수 보고된 상태입니다. 단순 작업의 고빈도 파이프라인에는 적합하지만, 스크롤·클릭·데이터 수집이 순서대로 이어지는 워크플로우에는 Gemini 3 Flash를 쓰는 편이 현재로선 안정적입니다. 이 버그의 수정 일정은 공식적으로 발표되지 않았습니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Flash-Lite는 “가장 빠른 Gemini 3 계열 모델”이라는 타이틀을 달고 나왔는데, 그 말 자체는 맞습니다. GPQA Diamond 86.9%, 출력 속도 363 t/s — 동급 경쟁 모델 중에서 실제로 두드러지는 수치입니다.

하지만 “Pro 1/8 가격”이라는 문구를 그대로 믿고 출력 토큰이 많은 작업에 붙이면, 직전 세대인 2.5 Flash-Lite 대비 3.75배 비싼 요금을 내게 됩니다. 거기에 verbose 특성(평균 2.65배 출력 토큰 생성)과 멀티스텝 에이전트의 조기 종료 버그까지 더해지면 예산 계획이 무너질 수 있습니다.

솔직히 말하면, 지금 2.5 Flash-Lite로 잘 돌아가고 있고 비용이 1순위라면 굳이 전환할 이유가 없습니다. 다만 성능이 먼저고 장기 마이그레이션 준비가 필요하다면, Batch 모드 조합으로 테스트해볼 가치는 충분히 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale
    https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
  2. Google DeepMind — Gemini 3.1 Flash-Lite Model Card (2026.03)
    https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/
  3. Google Cloud — Vertex AI Generative AI Pricing
    https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=ko
  4. Google Cloud — Gemini 3.1 Flash-Lite 모델 사양 문서 (2026.03.21)
    https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-flash-lite?hl=ko
  5. Artificial Analysis — Gemini 3.1 Flash-Lite Preview 독립 평가
    https://artificialanalysis.ai/models/gemini-3-1-flash-lite-preview

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 23일 기준 공개된 공식 문서와 공개 벤치마크를 토대로 작성되었으며, Gemini 3.1 Flash-Lite는 현재 공개 프리뷰 단계로 정식 출시 전에 사양·가격이 변경될 수 있습니다. 투자·구매 결정 전 반드시 최신 공식 문서를 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기