Gemini 3.1 Flash-Lite, 더 빠른데 왜 더 비쌀까요?

Published on

in

Gemini 3.1 Flash-Lite, 더 빠른데 왜 더 비쌀까요?

2026.03.03 출시 기준
gemini-3.1-flash-lite-preview
TECH

Gemini 3.1 Flash-Lite, 더 빠른데 왜 더 비쌀까요?

구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite. 속도는 2.5 Flash 대비 2.5배 빠르고 벤치마크 점수도 올랐는데, 막상 가격표를 열어보면 이전 Flash-Lite보다 비쌉니다. 출력 기준으로 3.8배, 벤치마크 점수를 만들어낸 Thinking 모드를 켜면 비용은 더 커집니다. 공식 문서와 실사용 데이터를 같이 놓고 정리했습니다.

$0.25
입력 / 1M 토큰
$1.50
출력 / 1M 토큰
86.9%
GPQA Diamond
1432
Arena.ai Elo 점수

빠르면 쌀 거라는 예상이 틀린 이유


(출처: Google Cloud Vertex AI 가격 페이지, 2026.03.20 기준)

이전 세대인 Gemini 2.5 Flash-Lite는 입력 $0.10, 출력 $0.40입니다. 출력 가격만 비교하면 3.8배 비쌉니다. “Flash-Lite = 저렴한 모델”이라는 공식이 세대가 바뀌면서 더 이상 성립하지 않습니다.

구글이 가격을 올린 이유는 공식적으로 밝히지 않았습니다. 다만 출시 발표문을 보면 “Gemini 3 시리즈 중 가장 빠르고 비용 효율적인 모델”이라고 소개하는데, 여기서 비용 효율성은 ‘절대 가격’이 아니라 ‘성능 대비 가격’입니다.

(출처: Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale, 2026.03.03)

▲ 목차로 돌아가기

공식 스펙 — 숫자로 보는 3.1 Flash-Lite

항목 수치
컨텍스트 윈도우 (입력) 1,000,000 토큰 (약 100만 토큰)
최대 출력 65,535 토큰
GPQA Diamond (이유추론) 86.9%
MMMU Pro (멀티모달) 76.8%
Arena.ai Elo 점수 1432
첫 응답 속도 (vs 2.5 Flash) 2.5배 빠름
출력 속도 향상 (vs 2.5 Flash) 45% 향상
지식 컷오프 2025년 1월
입력 가격 (Vertex AI) $0.25 / 1M 토큰
출력 가격 (Vertex AI) $1.50 / 1M 토큰

(출처: Google Cloud Vertex AI 공식 문서, 2026.03.15 업데이트 / Google Blog 발표문, 2026.03.03)

속도 지표는 Artificial Analysis 벤치마크 기준이고, 비교 대상이 2.5 Flash-Lite가 아니라 2.5 Flash입니다. 구글이 비교 기준을 살짝 올려놓은 셈입니다.

▲ 목차로 돌아가기

Thinking Level, 이게 핵심입니다

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 벤치마크 수치는 Thinking High 기준이고, 실제 비용은 Minimal/Low 기준으로 써야 의미가 있습니다. 같은 모델인데 두 가지 다른 현실이 존재합니다.

3.1 Flash-Lite에는 Thinking Level 파라미터가 들어왔습니다. AI Studio와 Vertex AI에서 None / Minimal / Low / Medium / High 중 선택할 수 있고, 이 선택이 비용을 완전히 바꿔버립니다.

실사용자 테스트 결과를 직접 확인했습니다. AI Studio에서 동일한 프롬프트를 넣었을 때, 2.5 Flash-Lite는 출력 토큰 약 6,980개를 썼고, 3.1 Flash-Lite를 High로 실행하자 65,436 토큰까지 올라갔습니다. 최대 출력 한도(65,536 토큰)에 거의 닿는 수준입니다.

사고 토큰이 출력 토큰으로 과금되기 때문에, High 모드를 켜면 비용이 대폭 늘어납니다.

그리고 또 하나 — reasoning_effort=”high”로 설정해도 복잡한 지시를 따르지 않는 케이스가 보고됐습니다. 구글이 3월 3~9일 배포 시점에 확인한 버그로, High 모드에서 Finish_reason=STOP이 멀티스텝 도구 사용 중간에 조기 발생하는 문제입니다. 이유는 아직 공식적으로 답변이 나오지 않은 부분입니다.

(출처: Reddit r/Bard, 2026.03.09 사용자 보고)

Minimal 모드에서는 사고 과정을 거의 생략하고 2.5 Flash-Lite보다 토큰을 오히려 적게 씁니다. 속도가 필요한 고빈도 작업이라면 Minimal이 현실적인 선택입니다.

▲ 목차로 돌아가기

2.5 Flash-Lite와 직접 비교한 결과

💡 같은 Flash-Lite 라인인데 세대가 다르면 비용 구조 자체가 달라집니다. 단순히 더 새 모델이니 더 낫다고 보기 어렵습니다.

항목 2.5 Flash-Lite 3.1 Flash-Lite
입력 가격 / 1M 토큰 $0.10 $0.25 (2.5배↑)
출력 가격 / 1M 토큰 $0.40 $1.50 (3.8배↑)
컨텍스트 윈도우 1,048,576 토큰 1,000,000 토큰
GPQA Diamond 64.6% 86.9% ✅
Humanity’s Last Exam 5.1% 16.0% ✅
FACTS Grounding 84.1% ✅ 40.6%
라이선스 CC BY 4.0 (오픈웨이트) 독점 (클로즈드)
Thinking Level 지원 없음 None~High

(출처: llm-stats.com 비교 데이터, 2026.03.20 / Google Cloud 공식 가격 페이지)

비용 계산을 직접 해보면 이렇습니다. 입력 100만 토큰, 출력 30만 토큰짜리 작업을 1,000번 반복한다고 가정하면, 2.5 Flash-Lite는 입력 $100 + 출력 $120 = $220이고, 3.1 Flash-Lite는 입력 $250 + 출력 $450 = $700입니다. 같은 볼륨에서 3배 이상 차이가 납니다.

▲ 목차로 돌아가기

FACTS Grounding에서 역전당하는 상황이 생깁니다

💡 추론 벤치마크에서는 3.1 Flash-Lite가 앞서지만, 사실 기반 답변 정확도(FACTS Grounding)에서는 이전 세대가 두 배 이상 높습니다. 무엇을 만들 것인지에 따라 선택이 달라집니다.

GPQA Diamond(86.9% vs 64.6%), Humanity’s Last Exam(16.0% vs 5.1%), SimpleQA(43.3% vs 10.7%) — 이 세 가지는 3.1 Flash-Lite가 앞섭니다. 그런데 FACTS Grounding은 다릅니다. 2.5 Flash-Lite 84.1%, 3.1 Flash-Lite 40.6%로 구세대가 두 배 이상 높습니다.

(출처: llm-stats.com, 2026.03.20 기준)

FACTS Grounding은 근거 문서에 충실하게 답하는 능력을 측정합니다. 컨텍스트에 넣어준 문서를 얼마나 정확하게 참조해서 답변을 만드는지가 평가 포인트입니다. RAG 파이프라인, 문서 기반 Q&A, 법적·계약 문서 처리처럼 사실 정확도가 중요한 작업에서는 2.5 Flash-Lite가 여전히 유리합니다.

왜 이런 역전이 생겼는지 구글이 공식 답변을 내놓지 않은 부분입니다. Thinking 중심으로 최적화된 모델 구조가 Grounding 성능에 영향을 줬을 가능성이 있지만, 이 역시 추정입니다.

▲ 목차로 돌아가기

지금 쓸 만한 상황과 기다려야 할 상황

솔직히 말하면, 현재 시점에서 모든 케이스에 3.1 Flash-Lite를 권장하긴 어렵습니다. 이미 2.5 Flash-Lite로 운영 중인 대용량 배치 파이프라인이 있다면 전환 비용이 3배 이상 올라가므로, 성능 개선이 그 차이를 메워주는지 먼저 직접 테스트해봐야 합니다.

✅ 지금 시도해볼 만한 상황

  • 실시간 응답이 필요한 서비스 — 첫 응답 2.5배 빠른 속도가 UX 차이를 만들 때
  • 이미지·동영상 멀티모달 레이블링 — 멀티모달 정확도가 올라가서 실제 비용이 줄어드는 케이스
  • 복잡한 추론이 필요한 중간 규모 배치 — Minimal/Low 사고 수준으로 2.5 Flash보다 싸게 쓸 수 있는 경우
  • Gemini 3 Flash를 쓰고 있는데 비용이 부담될 때 — 3.1 Flash-Lite는 3 Flash보다 저렴하고 비슷한 성능

⚠️ 아직 기다리는 게 나은 상황

  • 대용량 배치로 2.5 Flash-Lite를 쓰는 중 — 비용이 3.8배 차이나는 걸 정당화하려면 처리량이 훨씬 줄어야 함
  • 문서 기반 RAG, 계약서 분석 — FACTS Grounding 40.6%는 실사용에 리스크 있음
  • 멀티스텝 에이전트 워크플로 — High 모드 Finish_reason=STOP 버그 미해결 상태
  • 프리뷰 단계가 불안한 프로덕션 — 아직 정식 출시 전이라 정책 변경 가능성 있음

Batch API를 쓰면 가격이 절반 수준으로 내려갑니다. Flex/Batch 기준으로 3.1 Flash-Lite 출력은 $0.75/1M 토큰입니다. 지연이 허용되는 작업이라면 Batch API와 Minimal 사고 수준을 조합하는 게 실질 비용을 가장 낮추는 방법입니다.

(출처: Google Cloud Vertex AI 가격 페이지, 2026.03.20 기준)

▲ 목차로 돌아가기

자주 묻는 질문

Q. Gemini 3.1 Flash-Lite는 지금 바로 API에서 쓸 수 있나요?

Google AI Studio와 Vertex AI에서 프리뷰로 공개됐습니다. 모델 ID gemini-3.1-flash-lite-preview로 바로 호출 가능합니다. 다만 아직 정식 출시 전이라 API 정책과 가격이 변경될 수 있습니다.
Q. Thinking Level을 None으로 설정해도 성능이 크게 떨어지나요?

단순 번역, 콘텐츠 분류, 구조화된 JSON 출력 같은 작업에서는 None/Minimal 모드로도 충분합니다. 복잡한 수학적 추론이나 멀티스텝 에이전트 작업에서는 Low 이상을 써야 벤치마크에 근접한 결과가 나옵니다. High는 비용 대비 효과를 먼저 검증하고 쓰는 게 안전합니다.
Q. 2.5 Flash-Lite를 쓰고 있는데, 지금 바꿔야 하나요?

서두를 필요는 없습니다. 2.5 Flash-Lite는 2025년 6월 출시된 정식 버전이고, CC BY 4.0 라이선스로 더 유연하게 활용할 수 있습니다. FACTS Grounding처럼 문서 정확도가 중요한 작업이라면 2.5가 오히려 낫고, 속도가 필요한 작업이라면 3.1 Flash-Lite 테스트를 병행해보는 것이 맞습니다.
Q. Batch API를 쓰면 비용이 얼마나 달라지나요?

Flex/Batch 기준으로 입력 $0.13/1M, 오디오 $0.25/1M, 출력 $0.75/1M 토큰입니다. 일반 Standard 요금($0.25/$1.50)의 절반 수준입니다. 24시간 이내 처리가 허용되는 배치 작업이라면 Batch API를 쓰는 것이 비용 최적화의 핵심입니다.
(출처: Google Cloud Vertex AI 가격 페이지, 2026.03.20)
Q. 멀티모달 입력 지원 범위는 어떻게 되나요?

텍스트, 이미지(PNG/JPEG/WebP/HEIC/HEIF), 동영상(MP4/MOV 등 9종), 오디오(MP3/WAV/FLAC 등 11종), PDF를 지원합니다. 이미지는 요청당 최대 3,000개, 동영상은 최대 45분, 오디오는 최대 8.4시간까지 처리 가능합니다.
(출처: Google Cloud Vertex AI 공식 문서, 2026.03.15)

▲ 목차로 돌아가기

마치며

이 모델을 제대로 쓰려면 Thinking Level을 작업 성격에 맞게 조정해야 하고, FACTS Grounding이 중요한 작업에서는 2.5 Flash-Lite를 병행 검토해야 합니다. 속도와 가격 중 무엇이 더 중요한지를 먼저 정하고, 그다음에 모델을 선택하는 흐름이 맞습니다.

아직 프리뷰 단계라 추가 업데이트가 예정돼 있습니다. 특히 High 모드 버그가 수정되고 나면 실제 에이전트 활용 범위가 달라질 수 있어서, 지금은 테스트와 모니터링을 병행하는 것이 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026.03.03)
    링크 →
  2. Google Cloud — Vertex AI Gemini 3.1 Flash-Lite 공식 문서 (2026.03.15 업데이트)
    링크 →
  3. Google Cloud — Vertex AI 가격 책정 페이지 (2026.03.20 기준)
    링크 →
  4. llm-stats.com — Gemini 2.5 Flash-Lite vs Gemini 3.1 Flash-Lite 비교
    링크 →

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 가격 및 성능 수치는 2026년 3월 20일 기준이며, Google이 공식 발표 없이 업데이트할 수 있습니다. Gemini 3.1 Flash-Lite는 현재 프리뷰 상태로 정식 출시 전 변경 사항이 있을 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기