Gemini 3.1 Flash-Lite, 실제로 재봤습니다 — 가격 차이 3.75배

Published on

in

Gemini 3.1 Flash-Lite, 실제로 재봤습니다 — 가격 차이 3.75배

2026.03.03 기준
gemini-3.1-flash-lite-preview
Google DeepMind 공식 발표

Gemini 3.1 Flash-Lite, 실제로 재봤습니다 — 가격 차이 3.75배

구글은 2026년 3월 3일, Gemini 3.1 Flash-Lite를 출시하면서 “가장 비용 효율적인 AI 모델”이라고 발표했습니다. 근데 막상 공식 가격표를 펼쳐보면 이야기가 완전히 달라집니다. 이전 세대인 2.5 Flash-Lite보다 입력 토큰 가격이 2.5배, 출력 토큰 가격이 3.75배 높습니다.

$0.25
입력 /1M tokens
$1.50
출력 /1M tokens
363 T/s
출력 속도
1M
컨텍스트 토큰

“비용 효율적”이라는 말이 어떻게 오해되는지

구글의 공식 발표문에는 이렇게 나옵니다. “Priced at just $0.25/1M input tokens and $1.50/1M output tokens, it delivers enhanced performance at a fraction of the cost of larger models.” (출처: Google Blog, 2026.03.03) 핵심은 “larger models 대비”라는 조건입니다. 더 큰 모델인 3.1 Flash나 3.1 Pro보다 싸다는 뜻이지, 이전 세대 Flash-Lite보다 싸다는 의미가 아닙니다.

이 문장 하나가 적지 않은 혼선을 만들고 있습니다. 발표 직후 커뮤니티에서 “드디어 저렴해진 Gemini”라는 반응이 나왔지만, 공식 가격표(Vertex AI Pricing, 2026.03.23 기준)와 나란히 놓으면 맥락이 완전히 달라집니다. Gemini 3.1 Flash-Lite는 2.5 Flash-Lite보다 비싼 후속 모델입니다.

솔직히 말하면, 발표 문구 자체가 거짓은 아닙니다. 3.1 Flash-Lite는 같은 성능대에 있는 다른 경쟁 모델(GPT-5 mini, Claude 4.5 Haiku)보다 빠르고 경쟁력 있는 가격입니다. 단지 “저렴해졌다”는 인상을 줄 수 있는 문구가 문제였을 뿐입니다.

▲ 목차로 돌아가기

공식 스펙 표 — 숫자로 직접 확인

Google DeepMind 공식 모델 카드(2026.03.03 발행)에 실린 경쟁 모델 비교표입니다. 공식 원문 그대로 정리했습니다.

▲ 공식 모델 카드 기준 경쟁 비교 (출처: Google DeepMind, 2026.03.03)
모델 입력 $/1M 출력 $/1M 속도(T/s) GPQA (%) MMMU-Pro
3.1 Flash-Lite High $0.25 $1.50 363 86.9% 76.8%
2.5 Flash Dynamic $0.30 $2.50 249 82.8% 66.7%
2.5 Flash-Lite Dynamic $0.10 $0.40 366 66.7% 51.0%
GPT-5 mini High $0.25 $2.00 71 82.3% 74.1%
Claude 4.5 Haiku ET $1.00 $5.00 108 73.0% 58.0%
Grok 4.1 Fast $0.20 $0.50 145 84.3% 63.0%

이 표를 보면 “왜 구글이 비용 효율적이라고 했는지”가 이해됩니다. GPT-5 mini, Claude 4.5 Haiku와 비교하면 3.1 Flash-Lite는 훨씬 싸고 빠릅니다. 근데 2.5 Flash-Lite 행을 보면 이야기가 바뀝니다.

💡 공식 발표문과 실제 가격표를 같이 놓고 보니 이런 차이가 보였습니다. 구글이 비교 기준으로 삼은 건 “같은 세대 더 큰 모델”이지, “이전 세대 같은 등급 모델”이 아닙니다. 두 비교의 기준이 다릅니다.

▲ 목차로 돌아가기

2.5 Flash-Lite와 나란히 놓고 보면 보이는 것

Vertex AI 공식 가격표(2026.03.23 기준)에서 두 모델을 직접 꺼내 계산해봤습니다.

📐 토큰 100만 개 처리 시 비용 비교 계산

Gemini 3.1 Flash-Lite: 입력 $0.25 + 출력 $1.50 = 최대 $1.75
Gemini 2.5 Flash-Lite: 입력 $0.10 + 출력 $0.40 = 최대 $0.50

출력 중심 워크로드 기준: 3.1이 3.5배 비쌉니다.
입력 중심 워크로드 기준: 3.1이 2.5배 비쌉니다.

(출처: Vertex AI Generative AI Pricing, 2026.03.23 확인)

성능 차이도 같이 봐야 합니다. GPQA Diamond 기준 66.7%에서 86.9%로 올랐습니다. (출처: Google DeepMind 모델 카드, 2026.03.03) 점수만 보면 20포인트 넘는 차이입니다. 그런데 이 성능 향상이 내 워크로드에서 실제로 의미 있는 차이를 만드는지가 관건입니다.

단순한 요약이나 분류 작업이라면 66.7%든 86.9%든 결과물이 비슷할 가능성이 높습니다. 반면 복잡한 추론이 필요한 번역이나 구조화 데이터 추출이라면 차이가 납니다. 비용을 3.5배 더 내는 게 맞는지 판단하려면 내 작업의 성격을 먼저 확인해야 합니다.

▲ 목차로 돌아가기

속도가 “45% 빠르다”는 말이 반만 맞는 이유

구글 공식 블로그에는 이렇게 나옵니다. “2.5X faster Time to First Answer Token and 45% increase in output speed.” (출처: Google Blog, 2026.03.03) 비교 대상은 2.5 Flash입니다. 2.5 Flash-Lite가 아닙니다.

💡 공식 발표 숫자와 실제 벤치마크 기준이 다른 모델임을 확인하고 나서 보이는 것이 있습니다. Gemini 3.1 Flash-Lite의 출력 속도는 363 tokens/s, Gemini 2.5 Flash-Lite는 366 tokens/s입니다. (출처: Google DeepMind 공식 모델 카드, 2026.03.03) 사실상 같습니다.

“45% 빠르다”는 수치는 맞습니다. 다만 비교 대상이 2.5 Flash(249 T/s)이기 때문입니다. 363 ÷ 249 ≈ 1.46, 약 46% 빠릅니다. 이 숫자가 나올 수 있는 건 2.5 Flash가 2.5 Flash-Lite보다 느리기 때문입니다. 빠른 모델과 비교했을 때 “더 빠르다”는 말은 사실이지만, 이미 빠른 Flash-Lite급 모델과 비교하면 차이가 거의 없습니다.

속도 때문에 3.1 Flash-Lite로 넘어가려 했다면, 공식 모델 카드의 363 vs 366이라는 숫자를 먼저 확인해보는 게 맞습니다. 속도 면에서는 이전 세대 Flash-Lite와 실질적인 차이가 없습니다.

▲ 목차로 돌아가기

Thinking 레벨이 비용을 어디까지 끌어올리나

3.1 Flash-Lite는 Thinking(사고) 레벨을 Minimal, Low, High로 설정할 수 있습니다. 공식 벤치마크 수치는 대부분 “High” 기준입니다. (출처: Google DeepMind 공식 모델 카드, 2026.03.03) 이 부분이 가격 계산을 복잡하게 만듭니다.

⚠️ 실사용자 실측 데이터 (Reddit r/Bard, 2026.03.03)

동일한 프롬프트를 2.5 Flash-Lite와 3.1 Flash-Lite High로 각각 처리했을 때, 출력 토큰 수가 6,980개 vs 65,436개로 나왔습니다. 거의 9.4배 차이입니다. 3.1 Flash-Lite는 Thinking 토큰도 출력 토큰 요금에 포함되므로, 실제 청구 금액은 벤치마크 숫자에서 예상하는 것보다 훨씬 올라갈 수 있습니다.

이걸 계산식으로 풀어보면 이렇습니다.

비교 시나리오 (출력 토큰 기준)

2.5 Flash-Lite, 6,980 토큰 → 6,980 ÷ 1,000,000 × $0.40 = $0.0028
3.1 Flash-Lite High, 65,436 토큰 → 65,436 ÷ 1,000,000 × $1.50 = $0.098

같은 작업에서 출력 비용만 35배 차이가 났습니다. Thinking을 “High”로 놓았을 때의 실측값입니다.

반면 Thinking을 “Minimal”로 설정하면 3.1 Flash-Lite도 2.5 Flash-Lite와 비슷한 토큰을 사용합니다. 고성능 벤치마크 점수를 그대로 적용하려면 High가 필요하지만, 그러면 비용도 같이 올라갑니다. 이 점은 공식 블로그에 별도로 안내되어 있지 않습니다.

▲ 목차로 돌아가기

어떤 상황에서 3.1 Flash-Lite를 골라야 하나

공식 발표문과 실제 사용 사례를 교차해보면, 3.1 Flash-Lite가 진짜 효과를 내는 구간이 보입니다. 아래는 용도별로 정리한 판단 기준입니다.

✅ 3.1 Flash-Lite가 의미 있는 상황

  • 번역 파이프라인 — 2.5 Flash-Lite의 품질이 재처리 비용을 만들고 있을 때
  • 구조화 데이터 추출 — 오류율이 높아 다운스트림 비용이 쌓일 때
  • 이미지·비디오 분류 대량 처리 — MMMU-Pro 51% → 76.8%의 차이가 실제로 중요한 경우
  • 다국어 QA — MMMLU 84.5% → 88.9%의 정확도 차이가 사용자 경험에 직결될 때

⚠️ 2.5 Flash-Lite를 유지하는 게 나은 상황

  • 단순 요약·컨텍스트 압축 — 품질 향상이 사용자에게 체감되지 않는 경우
  • 저가 분류·라벨링 — 비용이 최우선인 대량 배치 작업
  • 실험·프로토타이핑 — 2.5 Flash-Lite의 무료 표준 티어가 아직 살아 있는 경우
  • 비용 예측이 중요한 프로덕션 — Preview 상태인 3.1의 레이트리밋 불확실성이 리스크가 될 때

공식 문서(ai.google.dev/gemini-api/docs/deprecations, 2026.03.20 기준)에는 2.5 Flash-Lite의 안정 버전 종료 예정일이 2026년 7월 22일로 나와 있습니다. 아직 시간이 있습니다. 다만 구버전 프리뷰 ID(`gemini-2.5-flash-lite-preview-09-2025`)를 쓰고 있다면 종료 예정일이 2026년 3월 31일로 훨씬 빠릅니다. 지금 확인해두는 게 맞습니다.

▲ 목차로 돌아가기

지금 2.5 Flash-Lite를 쓰고 있다면 체크할 것

3.1 Flash-Lite는 Preview 상태입니다(모델 ID: gemini-3.1-flash-lite-preview). 2026년 3월 기준으로 GA(정식 출시)가 아닙니다. 그 말은 레이트리밋이 변동될 수 있고, 무료 표준 티어가 공식 가격표에 아직 없다는 뜻입니다. (출처: Vertex AI 공식 문서, 2026.03.21 업데이트)

💡 마이그레이션 타임라인 — 공식 발표 기준 정리

  • gemini-2.5-flash-lite-preview-09-2025 → 종료 예정 2026.03.31 (당장 이동 필요)
  • gemini-2.5-flash-lite (안정 버전) → 종료 예정 2026.07.22
  • gemini-3.1-flash-lite-preview → 공식 후속 권장 모델, GA 전환 일정 미발표

(출처: ai.google.dev/gemini-api/docs/deprecations, 2026.03.20 기준)

이걸 보고 “지금 당장 전부 3.1 Flash-Lite로 바꿔야 하나”라고 생각할 수 있는데, 그건 아닙니다. 안정 버전 사용자라면 7월 22일까지 여유가 있습니다. 그 시간 동안 내 워크로드 중 어느 부분이 더 비싼 모델을 쓸 만한 가치가 있는지 테스트해보는 게 더 좋은 접근입니다.

기억해야 할 건, Flash-Lite는 여전히 Flash-Lite라는 점입니다. 3.1이 더 똑똑해졌다고 해서 무거운 추론이나 코드 생성의 주력 모델로 쓰기엔 한계가 있습니다. 그 용도라면 Flash나 Pro 라인을 별도로 검토해야 합니다.

▲ 목차로 돌아가기

자주 묻는 것들 — Q&A

+
네, 공식 가격표 기준으로 그렇습니다. 입력 토큰은 2.5배($0.10 → $0.25), 출력 토큰은 3.75배($0.40 → $1.50) 높습니다. (출처: Vertex AI Pricing, 2026.03.23) “비용 효율적”이라는 구글의 표현은 같은 세대의 더 큰 모델(Flash, Pro)과 비교한 것입니다.
출력 속도가 45% 빠르다는 건 2.5 Flash-Lite보다 빠른 건가요?
+
아닙니다. 45% 향상의 비교 대상은 Gemini 2.5 Flash입니다. 공식 모델 카드에 따르면 3.1 Flash-Lite의 출력 속도는 363 tokens/s, 2.5 Flash-Lite는 366 tokens/s로 사실상 같습니다. (출처: Google DeepMind 모델 카드, 2026.03.03)
Thinking을 High로 쓰면 왜 비용이 급격히 올라가나요?
+
지금 gemini-2.5-flash-lite-preview-09-2025를 쓰고 있는데 바꿔야 하나요?
+
네, 즉시 이동이 필요합니다. 이 프리뷰 ID의 공식 종료 예정일은 2026년 3월 31일입니다. (출처: ai.google.dev/gemini-api/docs/deprecations, 2026.03.20) 안정 버전인 gemini-2.5-flash-lite로 먼저 이동하거나, 직접 3.1 Flash-Lite로 전환하면 됩니다.
3.1 Flash-Lite가 정식 출시(GA)되면 가격이 낮아질 수 있나요?
+
구글이 GA 전환 후 가격 정책 변경 여부를 공식적으로 밝힌 내용은 없습니다. 다만 Preview 모델이 GA로 전환될 때 가격이 조정된 사례가 과거에 있었습니다. 현재로서는 이유가 공개되지 않은 부분이라 단정하기 어렵습니다.

▲ 목차로 돌아가기

마치며 — 총평

근데 이전 세대인 2.5 Flash-Lite 사용자 입장에서 보면 얘기가 다릅니다. 단순 업그레이드가 아니라 비용이 2.5배에서 3.75배 오른 후속 모델입니다. 속도는 사실상 같고, 성능 향상은 분명히 있지만, 그 향상이 내 작업에서 실제 가치를 만드는지 확인하지 않고 넘어가면 비용만 늘어납니다.

Thinking 레벨 설정에 따라 비용이 크게 달라진다는 것도 실제로 써보기 전까지 잘 안 알려진 부분입니다. 공식 벤치마크가 High 기준이라는 점, 그리고 High에서는 토큰 소모가 급증할 수 있다는 점은 API를 연동하기 전에 반드시 테스트해봐야 합니다.

📚 본 포스팅 참고 자료

  1. Google Blog — Gemini 3.1 Flash-Lite 공식 출시 발표 (blog.google)
  2. Google DeepMind — Gemini 3.1 Flash-Lite 공식 모델 카드 (deepmind.google)
  3. Vertex AI — Generative AI 공식 가격표 (cloud.google.com)
  4. Vertex AI — Gemini 3.1 Flash-Lite 공식 스펙 문서 (docs.cloud.google.com)
  5. Google Gemini API — 공식 Deprecations 페이지 (ai.google.dev/gemini-api/docs/deprecations)

본 포스팅은 2026년 3월 23일 기준으로 작성되었습니다. Gemini 3.1 Flash-Lite는 현재 Preview 상태이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 Google 공식 문서에서 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기