Gemini 3.1 Flash-Lite, 속도 2.5배 직접 따져봤습니다

Published on

in

Gemini 3.1 Flash-Lite, 속도 2.5배 직접 따져봤습니다

2026.03.03 기준
Preview 버전

Gemini 3.1 Flash-Lite, 속도 2.5배 직접 따져봤습니다

구글이 2026년 3월 3일 공개한 Gemini 3.1 Flash-Lite는 “가장 빠르고 저렴한 Gemini 3 시리즈 모델”이라고 소개됩니다. 공식 블로그에 따르면 이전 세대 2.5 Flash 대비 TTFT(첫 토큰 응답 시간) 2.5배 개선, 출력 속도 45% 향상이라는 수치가 나옵니다. 근데 막상 API를 써보면 생각과 다른 조건이 몇 가지 있습니다. 공식 문서와 실사용 데이터를 같이 놓고 정리했습니다.

2.5×
TTFT 단축 (vs 2.5 Flash)
208 t/s
출력 속도 (Artificial Analysis)
$0.25
입력 / 1M 토큰

Gemini 3.1 Flash-Lite가 뭔가요?

포지셔닝을 한 문장으로 요약하면 “대용량 트래픽을 낮은 비용으로 처리하는 모델”입니다. 번역, 콘텐츠 검수, UI 생성, 시뮬레이션처럼 초당 수십 건 이상 처리해야 하는 워크로드를 대상으로 설계됐습니다. 일반 소비자용 Gemini 앱에서는 직접 선택하는 방식으로 노출되지 않고, API와 AI Studio 기반으로 접근하는 개발자 전용 모델입니다.

컨텍스트 윈도우는 최대 1,048,576 토큰(약 100만 토큰)이고, 지식 기준일은 2025년 1월입니다. 텍스트, 이미지, 오디오, 비디오, PDF 입력을 받습니다. (출처: Google Cloud Vertex AI 공식 문서, 2026.03.30 업데이트)

▲ 목차로 돌아가기

공식 벤치마크 수치 직접 확인 — Lite라서 약할 것이라는 예상이 빗나갑니다

💡 공식 발표 벤치마크와 독립 평가 기관 수치를 같이 놓고 보면, “Lite = 낮은 성능”이라는 통념이 이 모델에선 맞지 않습니다.

Google이 공식 블로그에서 밝힌 벤치마크 수치는 다음과 같습니다. GPQA Diamond(대학원 수준 과학 추론 테스트)에서 86.9%, MMMU Pro(다중 모달 이해)에서 76.8%를 기록합니다. (출처: Google DeepMind 공식 블로그, 2026.03.03)

이 수치가 흥미로운 이유가 있습니다. 두 벤치마크 모두 이전 세대의 유료 플래그십 모델인 Gemini 2.5 Flash를 상회합니다. 이름에 “Lite”가 붙어 있어 당연히 2.5 Flash보다 성능이 낮을 거라고 생각하기 쉽지만, 공식 발표에 딱 이렇게 나옵니다. 세대 차이가 Lite라는 포지셔닝 차이보다 크게 작용한 셈입니다.

모델 GPQA Diamond MMMU Pro 출력 속도 입력 가격/1M
Gemini 3.1 Flash-Lite 86.9% 76.8% 208 t/s $0.25
Gemini 2.5 Flash 미공개 미공개 약 80 t/s* $0.30
GPT-5 mini 비교군 비교군 비교군 비교군

*2.5 Flash 출력 속도는 Artificial Analysis 추정치 기준. 출처: artificialanalysis.ai (2026.03.03)

독립 평가 기관인 Artificial Analysis에 따르면 Gemini 3.1 Flash-Lite는 초당 208 토큰을 출력하며, 이는 평가 대상 모델 중 상위권에 해당합니다. (출처: artificialanalysis.ai, 2026.03.03) 초당 208 토큰이면 평균 약 400자 분량의 한국어 텍스트를 1초 안에 생성한다는 뜻입니다.

다만 같은 Artificial Analysis 리포트에서는 “성능 대비 가격 면에서 유사 가격대 모델 중 약간 비싼 편”이라고 평가합니다. 입력 토큰 기준 중앙값($0.25)과 일치하지만, 출력 토큰($1.50)은 동급 평균($0.90)보다 약 66% 높습니다. 빠른 속도를 원한다면 값을 치르는 구조입니다.

▲ 목차로 돌아가기

가격과 한도, 정확히 얼마인가요?

Vertex AI 공식 가격표(2026.03.30 기준)를 기준으로 정리합니다. 기본 요금은 입력 토큰 $0.25/1M, 출력 토큰 $1.50/1M입니다. 사고(Thinking) 출력이 포함될 경우 별도로 $1.50이 추가 청구됩니다. (출처: Google Cloud Vertex AI 가격 페이지)

항목 Standard PayGo Flex/Batch
텍스트/이미지/오디오 입력 $0.25/1M $0.13/1M
비디오 입력 $0.50/1M $0.25/1M
출력 토큰 $1.50/1M $0.75/1M
Google Search Grounding 유료 (별도 청구)

출처: Google Cloud Vertex AI 가격 페이지 (2026.03.30 기준)

Flex/Batch 방식은 Standard 대비 절반 가격입니다. 실시간 응답보다 배치 처리 파이프라인에 쓰기 좋고, 비용이 절반으로 줄어듭니다.

Google AI Studio 무료 API 한도는 하루 500 요청(RPD 500)이 Reddit 커뮤니티에서 확인됐습니다. 이는 이전 2.5 Flash-Lite(RPD 20)와 비교하면 25배나 넉넉합니다. 하루 500번은 소규모 애플리케이션에서는 사실상 불편함 없이 사용할 수 있는 수준입니다.

▲ 목차로 돌아가기

“무료면 다 된다”는 말, 절반만 맞습니다

💡 공식 가격표와 실제 API 응답을 같이 확인해보면, 무료 티어에서 작동하지 않는 기능이 있습니다. 기존 2.5 Flash-Lite와 조건이 다릅니다.

가장 주의할 부분은 Google Search Grounding(실시간 웹 검색 연동) 기능입니다. Gemini 2.5 Flash-Lite는 무료 API 티어에서 Google Search를 통한 실시간 검색 연동이 가능했습니다. 그러나 Gemini 3.1 Flash-Lite의 무료 티어에서는 이 기능이 비활성화돼 있고, 유료 Google Cloud 계정에서만 사용할 수 있습니다. (출처: 공식 가격 페이지 및 Reddit r/Bard 실사용 보고, 2026.03.07)

이게 실제로 어떤 의미냐 하면, 기존 2.5 Flash-Lite로 검색 연동 파이프라인을 만들어 두었다면 3.1 Flash-Lite로 마이그레이션할 때 무료 티어 기준으로는 Grounding 기능이 끊깁니다. 그냥 모델 ID만 바꿔서는 안 된다는 뜻입니다.

API 모델 ID 호출 방식도 주의가 필요합니다. 모델명에 -preview를 반드시 붙여야 합니다. gemini-3.1-flash-lite만 쓰면 429 오류(RESOURCE_EXHAUSTED)가 발생합니다. 공식 문서에도 별도 이유는 명시되지 않고, 단순히 Preview 단계이기 때문으로 보입니다.

출력 토큰 상한도 확인이 필요합니다. Vertex AI 공식 문서에 따르면 최대 출력 토큰은 65,535개입니다. 긴 문서 요약이나 코드 생성처럼 출력이 길어질 수 있는 작업에서는 중간에 잘릴 수 있습니다.

▲ 목차로 돌아가기

High 사고 모드에서 생기는 함정 — 공식 문서가 알려주지 않는 실제 패턴

💡 Gemini 3.1 Flash-Lite의 사고 레벨 설정이 실제 청구 금액과 출력 품질에 미치는 영향을 직접 써본 사람들의 패턴과 함께 정리했습니다.

Reddit r/Bard에서 실제 사용자가 보고한 내용에 따르면, High 사고 모드에서 입력 컨텍스트가 충분히 크면 모델이 최대 출력 토큰인 65,535개를 그대로 채워버리는 경우가 있습니다. 사고 토큰 비용($1.50/1M)이 일반 출력과 동일하게 청구되므로, 예상보다 훨씬 높은 비용이 나올 수 있습니다. 65,535 토큰을 출력 토큰 단가 $1.50으로 계산하면 1회 요청에 약 $0.098이 청구되는데, 이를 1만 번 반복하면 약 $980이 됩니다.

⚠️ High 모드 사용 시 주의할 점

  • 입력이 긴 문서일 경우 출력이 65k 토큰 상한까지 팽창할 수 있음
  • 사고 토큰도 동일 단가로 과금되므로 토큰 소비를 별도 모니터링해야 함
  • 단순 분류·추출 작업에는 Minimal이나 Low 레벨로도 충분한 경우가 많음

반면 Reddit 실사용 데이터를 보면, 코딩 보조 작업에서는 2.5 Flash보다 High 모드 3.1 Flash-Lite가 더 정확한 결과를 냈다는 평가도 있습니다. 텍스트 다이제스트·검색·포매팅 작업에서는 2.5 Flash가 우세하고, 코딩 생성에서는 3.1 Flash-Lite가 앞선다는 패턴이 반복됩니다. 어떤 작업이냐에 따라 적합한 사고 레벨과 모델이 달라집니다.

▲ 목차로 돌아가기

Flash vs Flash-Lite, 어떤 걸 써야 할까요?

솔직히 말하면 “항상 더 새로운 모델이 더 낫다”는 공식은 여기서도 성립하지 않습니다. Artificial Analysis에서 별도로 확인된 패턴을 정리합니다.

상황 3.1 Flash-Lite 3.1 Flash 또는 2.5 Flash
대용량 번역·분류·태깅 ✅ 최적 비용 과다
코딩 보조·UI 생성 ✅ 적합
실시간 웹 검색 포함 RAG ❌ 유료 전용 ✅ 무료 가능
긴 문서 심층 분석 High 모드 비용 주의 ✅ 적합
텍스트 다이제스트·포매팅 보통 ✅ 2.5 Flash 우세

출처: Artificial Analysis 벤치마크 및 Reddit r/Bard 실사용 패턴 종합 (2026.03)

결론적으로, 초당 처리량과 비용이 핵심 제약인 파이프라인이라면 3.1 Flash-Lite가 맞습니다. 반면 실시간 검색 연동이 필요하거나 복잡한 멀티스텝 추론이 중심이라면 Flash 계열을 쓰는 게 낫습니다. Preview 딱지가 붙어 있는 만큼, 프로덕션 환경에서는 SLA(서비스 수준 보장)가 없다는 점도 감안해야 합니다. Google 공식 문서에서 별도 보장을 명시하지 않은 부분입니다.

아직 Preview 상태이므로 API 안정성이나 모델 응답 패턴이 조용히 바뀔 수 있습니다. 실제로 공개 직후 FREE 티어 일일 RPM 한도가 표시되는 방식 자체가 변경된 사례도 있었습니다. 3.1 Flash-Lite를 프로덕션에 넣는다면 정식 GA(일반 공급) 전까지는 플랜 B 모델을 함께 준비해두는 게 안전합니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q1. Gemini 3.1 Flash-Lite는 무료로 쓸 수 있나요?

Google AI Studio를 통해 무료 API 키로 사용할 수 있습니다. 무료 티어 기준 하루 약 500 요청(RPD 500)이 가능합니다. 다만 Google Search Grounding(실시간 검색 연동) 기능은 무료 티어에서 지원되지 않습니다. 모델 ID는 반드시 gemini-3.1-flash-lite-preview를 사용해야 합니다.
Q2. 2.5 Flash와 3.1 Flash-Lite 중 어떤 게 더 낫나요?

작업 유형에 따라 다릅니다. 번역·분류·태깅처럼 반복적이고 대용량인 작업에는 3.1 Flash-Lite가 빠르고 저렴합니다. 반면 실시간 검색 포함 RAG, 복잡한 텍스트 다이제스트 작업에서는 2.5 Flash가 더 안정적이라는 실사용 평가가 있습니다. 코딩 관련 작업에서는 3.1 Flash-Lite가 앞서는 경향이 있습니다.
Q3. 사고 레벨(Thinking Level)은 어떻게 설정하나요?

Google AI Studio의 모델 파라미터 설정 화면에서 Minimal·Low·High 중 선택할 수 있습니다. API 호출 시에는 요청 본문의 thinkingConfig 파라미터로 제어합니다. 단순 작업에는 Minimal이나 Low로 충분하고, High는 긴 입력에서 출력 토큰 폭발이 발생할 수 있어 주의가 필요합니다.
Q4. 한국어 처리 성능은 어떤가요?

Q5. 정식 버전(GA)은 언제 나오나요?

2026년 4월 현재 Preview 상태입니다. 공식 GA 일정은 아직 공개되지 않았습니다. 기존 Gemini 모델들의 Preview 기간이 통상 2~4개월 안에 GA로 전환됐다는 점을 감안하면, 2026년 2분기 내 정식 출시 가능성이 있습니다. GA 전환 전까지는 SLA 보장 없이 사용해야 합니다.

▲ 목차로 돌아가기

마치며 — 총평

두 번째, 무료 API 한도가 2.5 Flash-Lite 대비 25배 늘었지만, 실시간 검색 연동이 유료 전용으로 바뀐 건 놓치기 쉬운 변화입니다. 기존 파이프라인을 그대로 옮기다가 이 조건에서 막히는 경우가 생길 수 있습니다.

아직 Preview 단계인 만큼 프로덕션 적용은 신중하게 가야 합니다. 하지만 번역, 콘텐츠 태깅, 대용량 분류처럼 속도와 비용이 핵심인 워크로드라면 지금 바로 테스트해볼 만한 모델입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Google DeepMind 공식 블로그 — Gemini 3.1 Flash-Lite 발표 (2026.03.03)
    https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
  2. Google Cloud Vertex AI — Gemini 3.1 Flash-Lite 공식 모델 문서 (2026.03.30)
    https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-flash-lite?hl=ko
  3. Google Cloud Vertex AI — 가격 페이지 (2026.03.30)
    https://docs.cloud.google.com/vertex-ai/generative-ai/pricing?hl=ko
  4. Google Support — Gemini 앱 한도 및 업그레이드 공식 페이지
    https://support.google.com/gemini/answer/16275805?hl=ko-KR
  5. Artificial Analysis — Gemini 3.1 Flash-Lite Preview 독립 평가 (2026.03.03)
    https://artificialanalysis.ai/models/gemini-3-1-flash-lite-preview

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 3일~30일 공식 문서 기준이며, Gemini 3.1 Flash-Lite는 현재 Preview 버전입니다. Preview 단계의 모델은 사전 고지 없이 사양 변경, 한도 조정, 기능 제한이 발생할 수 있습니다. 최신 정보는 반드시 Google 공식 문서에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기