Gemini 3 시리즈
Gemini 3.1 Flash-Lite,
이 조건에서만 진짜 싸집니다
“Lite”라서 당연히 저렴하겠지라고 생각했다면 잠깐 멈춰야 합니다. 전작보다 입력 토큰 가격이 2.5배 올랐고, 출력 무게가 조금만 늘어나도 경쟁 모델에 역전당합니다. 공식 모델 카드 벤치마크로 직접 따져봤습니다.
전작보다 오히려 비싸진 Flash-Lite의 가격 구조
결론부터 말씀드리면, Gemini 3.1 Flash-Lite는 “Lite”라는 이름 때문에 싸다는 인상을 주지만 가격 흐름이 전작과 반대 방향입니다. Gemini 2.5 Flash-Lite의 입력 단가는 1M 토큰당 $0.10이었는데, 3.1 Flash-Lite는 $0.25입니다. 2.5배 올랐습니다. 출력 단가도 $0.40에서 $1.50으로 3.75배 뛰었습니다. (출처: Google DeepMind 공식 모델 카드, 2026.03.03)
이 숫자가 중요한 이유는 간단합니다. 기존에 2.5 Flash-Lite를 대량 배포해 쓰던 개발자라면, 같은 규모의 워크로드를 3.1로 넘기는 것만으로 월 비용이 2~3배 뛸 수 있습니다. 성능이 올라간 만큼 비용도 올라가는 구조인데, 구글은 이 부분을 공식 발표에서 ‘비용 효율적’이라고만 표현했고 전작 대비 가격 인상 폭은 별도로 명시하지 않았습니다.
💡 공식 발표와 실제 가격 흐름을 같이 놓고 보니 이런 차이가 보였습니다
구글이 강조하는 비교 기준은 ‘Claude 4.5 Haiku 대비 4배 저렴한 입력 단가’입니다. 하지만 전작인 2.5 Flash-Lite와 비교하면 방향이 뒤집힙니다. 어떤 기준점으로 놓느냐에 따라 “싸다”와 “비쌌다”가 동시에 성립합니다.
여기서 중요한 기준 하나를 잡아두겠습니다. Artificial Analysis 벤치마크 기준으로 Gemini 3.1 Flash-Lite의 지능 지수(AA Intelligence Index)는 34입니다. 2.5 Flash-Lite는 13이었습니다. 62% 향상된 지능에 2.5배 오른 가격 — 이 두 수치를 비교해서 납득이 되는 작업인지 아닌지를 판단하는 게 시작입니다. (출처: Artificial Analysis, tokencost.app, 2026.03 기준)
GPQA Diamond 86.9%, 경쟁 모델 대비 실제 위치
Gemini 3.1 Flash-Lite의 가장 두드러지는 수치는 GPQA Diamond 86.9%입니다. GPQA Diamond는 물리학, 화학, 생물학 박사 과정 수준의 질문으로 구성된 벤치마크입니다. 같은 가격대 모델인 Claude 4.5 Haiku가 73.0%, GPT-5 mini가 82.3%인 것과 비교하면 격차가 뚜렷합니다. (출처: Google DeepMind 공식 모델 카드, 2026.03)
| 모델 | 입력(1M tok) | 출력(1M tok) | GPQA Diamond | 속도(tok/s) |
|---|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 86.9% | 363 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 82.8% | 249 |
| GPT-5 mini | $0.25 | $2.00 | 82.3% | 71 |
| Claude 4.5 Haiku | $1.00 | $5.00 | 73.0% | 108 |
| Grok 4.1 Fast | $0.20 | $0.50 | 84.3% | 145 |
출처: Google DeepMind 공식 모델 카드, 2026.03.03 / tokencost.app, 2026.03.23 기준
단, 이 수치에서 코딩 벤치마크는 예외입니다. LiveCodeBench에서 3.1 Flash-Lite는 72.0%인데, GPT-5 mini는 80.4%입니다. 이 차이가 실전에서 무엇을 뜻하냐면 — 코드를 대량 생성하는 파이프라인에서는 Flash-Lite가 GPT-5 mini보다 성능이 낮으면서 출력 단가는 더 비싼 상황이 됩니다. 추론·과학 분야에서 강하고, 코드 생성에서는 약하다는 점은 용도 선택에서 결정적인 분기점입니다.
1M 컨텍스트, 실제로 쓸 수 있는 범위가 따로 있습니다
Gemini 3.1 Flash-Lite의 가장 눈에 띄는 스펙 중 하나가 1M 토큰 컨텍스트 윈도우입니다. 소설 8권 분량의 텍스트를 한 번에 입력할 수 있는 크기입니다. Claude 4.5 Haiku(200K), GPT-4o mini(128K)와 비교하면 5~8배 큰 창입니다. 그런데 공식 모델 카드에 직접 나와 있는 MRCR 벤치마크 수치를 보면 이야기가 달라집니다.
💡 공식 모델 카드 MRCR 수치를 직접 확인해보니 이런 패턴이 나왔습니다
- 128K 컨텍스트 구간: 60.1% (실용적 수준)
- 1M 컨텍스트 구간: 12.3% (신뢰도 낮음)
출처: Google DeepMind 공식 모델 카드 Evaluation 섹션, 2026.03
MRCR은 긴 문서에서 특정 정보를 찾아내는 능력을 측정합니다. 128K 구간에서 60.1%는 실용 가능한 수준이지만, 1M 구간에서 12.3%는 사실상 신뢰하기 어렵습니다. 모델이 문서를 받아들이는 것과 그 안에서 정확히 원하는 내용을 찾아내는 것은 다른 문제입니다. 1M 컨텍스트를 마케팅 포인트로만 받아들이면 안 되는 이유가 여기 있습니다.
구글이 공식 발표에서 별도 이유를 밝히지 않은 부분이기도 합니다. 긴 문서에서 특정 정보를 정밀하게 추출해야 하는 작업이라면 컨텍스트 캐싱($0.025/1M tok)을 함께 활용하거나, 128K 이하로 청크를 나누는 방식이 실제로 더 안정적입니다.
이 조건에서 진짜 싸고, 이 조건에서 역전당합니다
tokencost.app이 공식 가격 기준으로 직접 계산한 세 가지 시나리오를 보면 패턴이 명확합니다. 비교 대상은 성능 겹침이 가장 큰 Claude 4.5 Haiku입니다.
| 워크로드 유형 | Flash-Lite 월 비용 | Claude Haiku 월 비용 | 절감률 |
|---|---|---|---|
| 고객지원 (2K 입력/500 출력, 5,000건/일) | $187 | $675 | 72% 절감 |
| 콘텐츠 모더레이션 (1K 입력/200 출력, 5만 건/일) | $870 | $3,150 | 72% 절감 |
| 문서 요약 (10K 입력/2K 출력, 500건/일) | $82 | $300 | 73% 절감 |
출처: tokencost.app 실제 비용 시나리오, 2026.03 기준 / 캐싱·Batch 미적용 수치
세 시나리오 모두 입력 비중이 높고 출력이 짧습니다. Claude 4.5 Haiku 대비 약 3.6배 저렴합니다. 그런데 출력이 길어지는 작업, 예를 들어 하루 1,000건에 출력이 2,000 토큰씩 나오는 코드 생성 파이프라인이라면 월 출력 토큰이 6천만 개입니다. Flash-Lite 기준 $90인데, 같은 조건에서 Mistral Small 4($0.60/M 출력)는 $36입니다. 2.5배 역전됩니다.
막상 계산해보면 다릅니다. 입력이 무거운 분류·번역·모더레이션에서는 Flash-Lite가 압도적으로 유리하고, 코드 생성처럼 출력이 무거운 작업에서는 Mistral Small 4나 Grok 4.1 Fast($0.50/M 출력)가 더 저렴합니다. 어떤 작업이냐가 모든 것을 결정합니다.
Batch API와 Thinking Level, 숨겨진 두 가지 레버
국내 블로그 대부분이 다루지 않은 두 가지 기능이 있습니다. 첫 번째는 Batch API입니다. 실시간 응답이 필요 없는 작업에서 Batch API를 적용하면 입력 단가가 $0.25 → $0.125, 출력 단가가 $1.50 → $0.75로 정확히 절반이 됩니다. 대량 문서 분류, 데이터 라벨링, 비실시간 번역 파이프라인이라면 실질적인 비용이 반으로 줄어드는 구조입니다. (출처: tokencost.app, Google AI 공식 가격 문서 기준)
두 번째는 Thinking Level입니다. 3.1 Flash-Lite와 3.1 Pro 모두 AI Studio와 Vertex AI에서 추론 강도를 조절할 수 있습니다. 단순 분류 작업에는 최소 사고 수준으로 속도를 올리고, 복잡한 UI 생성이나 시뮬레이션 작업에는 사고 수준을 높여 정확도를 끌어올릴 수 있습니다. 구글이 공식 발표문에서 “high-frequency workflows를 위한 low latency”라고 강조한 배경에 이 기능이 있습니다.
💡 Thinking Level과 Batch API를 함께 쓰면 비용 구조가 바뀝니다
비실시간 대량 작업에 Batch API(50% 할인) + 최저 Thinking Level 조합이면, 단가는 입력 $0.125, 출력 $0.75까지 내려갑니다. 이 조합으로 운영하면 Mistral Small 4와의 출력 단가 차이도 $0.15로 좁혀집니다.
초기 테스터인 Latitude의 결과는 공식 발표문에서 직접 확인할 수 있습니다. 이전 모델 대비 성공률 20% 향상, 추론 속도 60% 향상이 보고됐습니다. Whering은 100% 일관된 아이템 태깅을 달성했다고 밝혔습니다. (출처: Google 공식 블로그, 2026.03.03) 단, 이 수치는 각 기업의 자체 워크로드 기준이며 범용적으로 재현되는 결과는 아닙니다.
3.1 Flash Live까지 묶어보면 달라지는 그림
3월 26일, 구글은 Gemini 3.1 Flash-Lite와 별개로 Gemini 3.1 Flash Live를 추가 공개했습니다. 음성 우선(voice-first) AI에 특화된 모델로, 실시간 대화 기능을 담당합니다. ComplexFuncBench Audio 벤치마크에서 이전 모델 대비 90.8%의 성능을 기록했고, AudioMultiChallenge에서 Thinking 모드 활성화 시 36.06%로 선두를 차지했습니다. (출처: 구글 공식 블로그, 2026.03.26)
Flash Live는 일반 이용자 관점에서는 Gemini Live와 Search Live를 통해 이미 적용됐습니다. 구글은 Flash Live가 이전 모델 대비 대화 흐름을 두 배 더 길게 유지한다고 밝혔습니다. 또한 SynthID 워터마크가 모든 오디오 출력에 자동 적용되어 AI 생성 콘텐츠 식별이 가능합니다.
Flash-Lite와 Flash Live를 같이 놓고 보면 구글의 전략이 보입니다. Flash-Lite는 텍스트·멀티모달 대량 처리 워크로드를 담당하고, Flash Live는 실시간 음성 에이전트를 담당합니다. 같은 ‘Flash’ 라인이지만 쓰임새가 완전히 다르고, 두 모델 모두 Preview 상태라는 점은 GA 이후 가격이나 스펙이 변경될 수 있다는 리스크를 동시에 품고 있습니다.
Q&A — 5가지 실전 질문
마치며
Gemini 3.1 Flash-Lite는 입력 중심의 대량 처리 워크로드에서 경쟁 모델을 가격 대비 성능으로 이기는 모델입니다. GPQA Diamond 86.9%는 같은 가격대에서 나온 수치치고는 실제로 인상적입니다. 하지만 이게 유리한 조건은 분명히 있습니다. 입력 토큰이 무겁고, 출력 토큰이 짧고, 추론·과학·다국어 처리가 주 업무인 경우입니다.
반대로 출력이 많고 코딩 정밀도가 중요한 파이프라인에서는 이 모델이 최적 선택이 아닐 수 있습니다. 전작보다 2.5~3.75배 오른 단가와 Preview 상태라는 점도 프로덕션 배포 전에 고려해야 합니다. 소제목에 명시된 조건 — “이 조건에서만 진짜 싸집니다” — 은 과장이 아닙니다. 조건 바깥에서는 더 싼 선택지가 존재합니다.
개인적으로 이 모델이 가장 빛나는 시나리오는 Gemini 3.1 Pro와 조합으로 쓰는 경우입니다. 복잡한 기획과 설계는 Pro(입력 $2.00)에 맡기고, 반복 실행과 대량 처리는 Flash-Lite(입력 $0.25)로 위임하면 실질적인 단가를 8분의 1로 낮출 수 있습니다. 이 조합 전략은 구글이 공개한 사례에서도 직접 확인되는 패턴입니다.
본 포스팅 참고 자료
- Google DeepMind — Gemini 3.1 Flash-Lite 공식 모델 카드 (2026.03.03)
- Google 공식 블로그 — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
- 구글 공식 한국어 블로그 — 제미나이 3.1 플래시 라이브 (2026.03.26)
- VentureBeat — Google releases Gemini 3.1 Flash-Lite (2026.03.03)
- TokenCost — Gemini 3.1 Flash-Lite Pricing & Benchmarks (2026.03.23 기준)
본 포스팅은 2026년 3월 29일 기준으로 작성되었습니다. Gemini 3.1 Flash-Lite 및 Flash Live는 현재 Preview 상태이며, 본 포스팅 작성 이후 서비스 정책·가격·UI·기능이 변경될 수 있습니다. 모든 수치는 공식 출처를 기반으로 하며, GA 출시 이후 달라질 수 있는 점을 감안하고 참고하시기 바랍니다.











댓글 남기기