Vertex AI · Google AI Studio
Gemini 3.1 Flash-Lite, 실제 비용 직접 재봤습니다
“Pro의 1/8 가격”이라는 문구가 눈에 들어왔습니다. 구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite의 공식 소개 문장입니다. 그런데 이 말이 어떤 조건에서 성립하는지 따져보면 숫자가 달라집니다. 출력 토큰 기준으로 계산하면 직전 세대인 2.5 Flash-Lite보다 오히려 비쌉니다. 공식 가격표와 실사용 데이터를 직접 뜯어봤습니다.
“1/8 가격”이 맞는 순간과 틀리는 순간
결론부터 말씀드리면, “Gemini 3.1 Flash-Lite는 Pro 대비 1/8 가격”이라는 말은 입력 토큰 기준으로만 성립합니다. 공식 가격표를 보면 3.1 Pro의 입력 단가는 100만 토큰당 $2.00이고, 3.1 Flash-Lite는 $0.25입니다. 나누면 정확히 1/8입니다. (출처: Google Cloud Vertex AI 가격 책정 페이지, 2026.03)
💡 공식 가격표와 실제 호출 패턴을 같이 놓고 보니 이런 차이가 보였습니다.
출력 토큰은 이야기가 다릅니다. 3.1 Pro의 출력 단가는 $12.00/1M이고, 3.1 Flash-Lite는 $1.50/1M — 이건 1/8이 맞습니다. 그런데 여기서 비교 대상을 직전 세대인 2.5 Flash-Lite로 바꾸면 완전히 달라집니다. 2.5 Flash-Lite의 출력 단가는 $0.40/1M입니다. 3.1 Flash-Lite($1.50)는 2.5 Flash-Lite 대비 출력 비용이 3.75배 비쌉니다. (출처: Google Cloud Vertex AI 가격 책정 페이지, 2026.03)
실제 API를 주로 쓰는 개발자 입장에서는 입력보다 출력 토큰 비용이 훨씬 크게 잡힙니다. 챗봇이나 요약 서비스처럼 출력이 긴 작업일수록 “싸다”는 느낌이 줄어듭니다. 출력이 1:5 비율(입력 1M, 출력 5M)이라면 총 비용은 $7.75인데, 2.5 Flash-Lite로 같은 호출을 하면 $2.25에 끝납니다. 조건이 다르면 숫자가 3배 이상 벌어집니다.
| 모델 | 입력 ($/1M) | 출력 ($/1M) |
|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 |
| Gemini 3 Flash | $0.50 | $3.00 |
| Gemini 3.1 Flash | $0.50 | $3.00 |
| Gemini 3.1 Pro | $2.00 | $12.00 |
| GPT-5 mini | $0.25 | $2.00 |
| Claude 4.5 Haiku | $1.00 | $5.00 |
(출처: Google Cloud Vertex AI 가격 책정 페이지, DeepMind Model Card, 2026.03)
입력 단가만 보면 GPT-5 mini($0.25)와 동률이지만, 출력 단가에서 Flash-Lite($1.50) 대 GPT-5 mini($2.00)로 Flash-Lite가 25% 저렴합니다. 어떤 모델과 비교하느냐에 따라 “싸다”는 결론 자체가 달라집니다.
공식 벤치마크에서 직접 뽑은 숫자들
구글 DeepMind가 2026년 3월 공개한 공식 모델 카드에는 경쟁 모델과의 벤치마크 비교 수치가 들어 있습니다. 여기서 눈에 띄는 부분이 있습니다.
GPQA Diamond(과학적 추론)에서 Flash-Lite는 86.9%를 기록했습니다. 이 수치는 같은 비교표에 있는 Claude 4.5 Haiku(73.0%), GPT-5 mini(82.3%), Grok 4.1 Fast(84.3%)를 모두 앞섭니다. 라이트 등급 모델이 더 무거운 경쟁 모델보다 추론 점수가 높다는 뜻입니다. (출처: Google DeepMind Gemini 3.1 Flash-Lite Model Card, 2026.03)
💡 벤치마크 점수와 실제 비용 사이를 같이 놓고 보면 놓치기 쉬운 숫자가 하나 나옵니다.
Artificial Analysis의 독립 평가에서 Flash-Lite는 Intelligence Index 벤치마크 실행 시 53M 토큰을 생성했습니다. 비교 대상 평균은 20M 토큰입니다. 똑같은 작업에서 Flash-Lite는 평균 모델보다 2.65배 많은 출력 토큰을 씁니다. (출처: Artificial Analysis, 2026.03) 성능이 좋아 보이는 벤치마크 점수가 실제로는 더 많은 토큰 소비를 통해 나온 것일 수 있습니다.
출력 속도는 공식 벤치마크 기준 363 토큰/초입니다. 같은 표에서 GPT-5 mini(71 t/s), Claude 4.5 Haiku(108 t/s), Grok 4.1 Fast(145 t/s)와 비교하면 압도적입니다. 실시간 응답이 필요한 서비스에서 체감 차이가 날 수 있는 수치입니다. (출처: Google DeepMind Model Card, 2026.03)
단, 아레나(Arena.ai) Elo 점수는 1432로 동급 평균보다 높지만, Humanity’s Last Exam(복잡한 학술 추론) 점수는 16.0%로 Grok 4.1 Fast(17.6%)와 GPT-5 mini(16.7%)에 소폭 밀립니다. 단순 속도나 과학 추론 외에 복잡한 오픈엔디드 문제에서는 절대적인 우위가 아닙니다.
Thinking Level이 높을수록 더 잘 따른다고요?
3.1 Flash-Lite의 핵심 기능 중 하나가 Thinking Levels입니다. AI Studio와 Vertex AI에서 모델이 얼마나 깊이 생각할지 조절할 수 있는 파라미터입니다. 구글의 공식 설명에 따르면 “개발자가 작업에 따라 모델의 사고 깊이를 조절할 수 있다”는 것이 핵심 장점입니다. (출처: Google Blog, 2026.03.03)
💡 공식 설명과 실사용 로그를 같이 놓고 보니 이런 차이가 보였습니다.
Reddit에 올라온 실사용 보고(2026.03.09)에 따르면 멀티스텝 에이전트 작업에서 reasoning_effort="high"를 적용해도 지시 이행 문제가 해결되지 않았습니다. 모델 자체가 “충분한 정보를 확보했다”고 판단하면 나머지 지시를 무시하고 멈추는 이른바 Finish_reason=STOP 조기 종료 버그가 2026.03.04부터 보고되고 있습니다. “High Reasoning이 High Compliance를 뜻하지 않는다”는 피드백이 다수입니다. Google이 공식 답변을 내놓지 않은 부분입니다.
실제 워크플로우에서 이 버그가 걸리는 조건이 있습니다. 여러 스텝의 Tool Call이 순서대로 실행돼야 하는 에이전트 파이프라인에서, 모델이 초기 응답만으로 목표 달성이 가능하다고 판단할 때입니다. 페이지 스크롤을 7번 반복하라는 지시를 1~2번 만에 종료하는 사례가 대표적입니다.
이 동작은 Flash-Lite의 설계 방향(“고빈도·저지연·비용 최소화”)과 맞닿아 있습니다. 비용을 줄이기 위해 모델이 “Greedy Search” 방식으로 최단 경로를 찾는 구조인데, 이것이 절차 준수보다 결과 최적화를 우선시하는 결과로 이어지는 것으로 보입니다. 멀티스텝 에이전트 작업보다는 단발성 번역·분류·요약 작업에 더 적합합니다.
Batch·Flex 모드를 쓰면 2.5 Flash-Lite와 격차가 좁혀집니다
3.1 Flash-Lite를 Standard PayGo로만 쓰면 2.5 Flash-Lite 대비 출력 비용이 3.75배 비싸지만, Vertex AI의 Flex PayGo 또는 Batch API를 활용하면 계산이 달라집니다. Flex PayGo는 Standard 대비 50% 할인이 적용됩니다. (출처: Google Cloud Vertex AI Flex PayGo 문서, 2026.03)
Batch API 기준으로 3.1 Flash-Lite의 출력 단가는 $0.75/1M입니다. 이 시점에서 2.5 Flash-Lite Standard($0.40/1M)와의 차이가 약 1.9배로 줄어듭니다. 여기에 2.5 Flash-Lite도 Batch 모드를 적용하면 $0.20/1M까지 내려가므로, 절대 비용은 여전히 2.5 Flash-Lite가 저렴합니다. 단, 3.1 Flash-Lite의 성능·속도 차이를 비용 대비로 따질 때는 Batch 모드 조합을 기준으로 비교하는 게 현실적입니다.
| 모델 | Standard | Flex/Batch (50%↓) |
|---|---|---|
| Gemini 3.1 Flash-Lite | $1.50 | $0.75 |
| Gemini 2.5 Flash-Lite | $0.40 | $0.20 |
| Gemini 3 Flash | $3.00 | $1.50 |
대량 배치 처리(콘텐츠 분류, 번역 파이프라인 등)에서는 Batch 모드를 묶어서 쓸 때 3.1 Flash-Lite가 3 Flash 대비 절반 비용입니다. 3.1 Flash 대신 3.1 Flash-Lite를 Batch로 쓰는 시나리오에서는 이점이 명확합니다.
실제로 쓰면 유리한 시나리오 딱 3가지
여기까지 정리하면 Flash-Lite가 무조건 싸거나 좋은 모델이 아님은 분명합니다. 그럼 어떤 상황에서 선택하는 게 맞을까요. 공식 사용 사례와 실사용 후기를 교차하면서 세 가지로 좁혀봤습니다.
지식 컷오프가 January 2025인 이유
3.1 Flash-Lite의 공식 지식 컷오프는 2025년 1월입니다. (출처: Google Cloud Vertex AI Gemini 3.1 Flash-Lite 모델 카드, 2026.03.21 업데이트) 모델 자체는 2026년 3월에 출시됐는데 지식 데이터는 1년 이상 과거에서 멈춰 있습니다.
💡 공식 스펙과 실제 배포 흐름을 같이 놓고 보면 이 차이가 왜 생겼는지 보입니다.
3.1 Flash-Lite는 “Gemini 3 Pro 기반의 경량 파생 모델”입니다. (출처: DeepMind Model Card) 즉 Gemini 3 Pro의 사전학습 데이터를 그대로 사용하면서 지연 시간과 비용을 최적화한 구조입니다. Gemini 3 Pro의 학습 데이터 컷오프가 2025년 1월이기 때문에, 파생 모델인 3.1 Flash-Lite도 동일한 한계를 가집니다. 그라운딩(Google 검색 연동)을 함께 쓰지 않으면 2025년 이후 사건이나 데이터를 모델이 자체적으로 알 수 없습니다.
최신 정보가 중요한 뉴스 요약, 주가 데이터 처리, 2025년 하반기 이후 법령·정책 분석 등에 Flash-Lite를 단독으로 쓰면 오답이 나올 수 있습니다. 이런 용도라면 Google 검색 그라운딩 기능($35/1,000 API 콜, 구글 지도 제외, 출처: Vertex AI 가격 책정 페이지)을 함께 활성화하거나, RAG(검색 증강 생성) 파이프라인을 별도 구축해야 합니다.
자주 묻는 질문 (Q&A)
마치며
Gemini 3.1 Flash-Lite는 “가장 빠른 Gemini 3 계열 모델”이라는 타이틀을 달고 나왔는데, 그 말 자체는 맞습니다. GPQA Diamond 86.9%, 출력 속도 363 t/s — 동급 경쟁 모델 중에서 실제로 두드러지는 수치입니다.
하지만 “Pro 1/8 가격”이라는 문구를 그대로 믿고 출력 토큰이 많은 작업에 붙이면, 직전 세대인 2.5 Flash-Lite 대비 3.75배 비싼 요금을 내게 됩니다. 거기에 verbose 특성(평균 2.65배 출력 토큰 생성)과 멀티스텝 에이전트의 조기 종료 버그까지 더해지면 예산 계획이 무너질 수 있습니다.
솔직히 말하면, 지금 2.5 Flash-Lite로 잘 돌아가고 있고 비용이 1순위라면 굳이 전환할 이유가 없습니다. 다만 성능이 먼저고 장기 마이그레이션 준비가 필요하다면, Batch 모드 조합으로 테스트해볼 가치는 충분히 있습니다.
본 포스팅 참고 자료
- Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/ - Google DeepMind — Gemini 3.1 Flash-Lite Model Card (2026.03)
https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/ - Google Cloud — Vertex AI Generative AI Pricing
https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=ko - Google Cloud — Gemini 3.1 Flash-Lite 모델 사양 문서 (2026.03.21)
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-flash-lite?hl=ko - Artificial Analysis — Gemini 3.1 Flash-Lite Preview 독립 평가
https://artificialanalysis.ai/models/gemini-3-1-flash-lite-preview
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 23일 기준 공개된 공식 문서와 공개 벤치마크를 토대로 작성되었으며, Gemini 3.1 Flash-Lite는 현재 공개 프리뷰 단계로 정식 출시 전에 사양·가격이 변경될 수 있습니다. 투자·구매 결정 전 반드시 최신 공식 문서를 직접 확인하세요.

댓글 남기기