Gemini 2.5 Flash Lite, 3월 31일에 다 끝날까요?

Published on

in

Gemini 2.5 Flash Lite, 3월 31일에 다 끝날까요?

2026.03.18 기준
Gemini API · Preview 모델
⚠️ D-13

Gemini 2.5 Flash Lite, 3월 31일에 다 끝날까요?

결론부터 말씀드리면, 반은 맞고 반은 틀립니다. Google이 이메일로 공지한 종료 대상은 gemini-2.5-flash-lite-preview-09-2025이고, GA 안정 버전인 gemini-2.5-flash-lite는 2026년 7월 22일까지 살아있습니다. 그런데 여기서 걸립니다. -latest 별칭을 쓰는 코드는 3월 31일 이후 자동으로 더 비싼 모델로 바뀝니다.

Preview 종료일
2026.03.31
GA 버전 종료일
2026.07.22
출력 가격 변화
3.75배↑

어떤 모델이 3월 31일에 꺼지는 건가요?

Google이 2026년 3월 10일 전후로 개발자 이메일을 통해 공지한 내용을 보면, 종료 대상은 정확히 gemini-2.5-flash-lite-preview-09-2025 하나입니다. 이 모델은 2025년 9월 25일에 출시된 Preview 버전으로, 공식 지원 중단 페이지에도 “2026년 3월 31일 종료”로 명시돼 있습니다. (출처: Google AI for Developers 지원 중단 페이지, 최종 업데이트 2026-03-11)

그런데 헷갈리는 지점이 있습니다. 이름이 비슷한 gemini-2.5-flash-lite(GA 안정 버전, 2025년 7월 22일 출시)는 종료일이 2026년 7월 22일로 따로 잡혀 있습니다. 같은 모델처럼 보이는 두 이름이 사실은 별개 엔드포인트고, 종료 일정도 약 4개월 차이가 납니다. 코드에서 어느 것을 호출하고 있는지 지금 한 번 확인해볼 필요가 있습니다.

💡 공식 문서와 실제 운영 환경을 같이 놓고 보면 이런 차이가 보였습니다

Preview 버전 사용자 중 상당수가 GA 버전도 함께 종료된다고 오해하고 있습니다. 실제로는 AI Studio와 Gemini API에서만 Preview가 종료되며, GA 버전은 별도 일정으로 운영됩니다. 두 버전의 스펙 차이도 있으니 아래 표를 참고하세요.

모델 이름 출시일 종료일 권장 교체
gemini-2.5-flash-lite-preview-09-2025 2025.09.25 2026.03.31 ⚠️ gemini-3.1-flash-lite-preview
gemini-2.5-flash-lite (GA) 2025.07.22 2026.07.22 ✅ gemini-3.1-flash-lite-preview

(출처: Google AI for Developers 공식 지원 중단 페이지, 2026-03-11 업데이트)

▲ 목차로 돌아가기

-latest 별칭이 있다면 지금 당장 확인해야 합니다

Google이 이메일 공지에서 명시한 핵심 변경사항이 있습니다. “The -latest alias will automatically point to Gemini 3.1 Flash Lite Preview (gemini-3.1-flash-lite-preview).” 즉, 코드에서 gemini-2.5-flash-lite-latest 형태의 별칭을 사용하고 있다면 3월 31일 이후 자동으로 3.1 버전으로 교체됩니다. 모델 이름을 바꾸지 않아도 비용 구조가 바뀌는 것입니다. 이게 생각보다 조용히 지나갈 수 있는 함정입니다.

막상 확인해보면 이 단계에서 멈추는 경우가 많습니다. 특히 OpenRouter, LangChain, 각종 AI 래퍼 서비스를 통해 간접적으로 Gemini를 호출하는 코드는 내부적으로 어느 모델 ID를 쓰는지 직접 들여다보지 않으면 알기 어렵습니다. 지금 사용 중인 환경의 SDK 버전과 모델 문자열을 한 번 grep해보는 것이 현실적으로 가장 빠릅니다.

🔍 코드에서 확인해야 할 문자열 목록
  • gemini-2.5-flash-lite-preview-09-2025 → 3월 31일 종료 대상
  • gemini-2.5-flash-lite-latest → 자동으로 3.1로 교체됨
  • gemini-2.5-flash-lite (버전 없음) → 7월 22일까지 안전

▲ 목차로 돌아가기

후속 모델로 가면 비용이 얼마나 달라질까요?

여기서 많이들 놀랍니다. Google 공식 블로그에서 Gemini 3.1 Flash-Lite를 소개하며 “비용 효율적”이라는 표현을 썼는데, 막상 수치를 들여다보면 뉘앙스가 달라집니다. 모델 카드(출처: deepmind.google/models/model-cards/gemini-3-1-flash-lite, 2026-03-03 발행) 기준 공식 가격을 비교하면 다음과 같습니다.

모델 입력 $/1M 출력 $/1M 출력 속도 (t/s)
Gemini 2.5 Flash-Lite (GA) $0.10 $0.40 366 t/s
Gemini 3.1 Flash-Lite Preview (신규) $0.25 $1.50 363 t/s
Gemini 2.5 Flash $0.30 $2.50 249 t/s

(출처: Google DeepMind 모델 카드 공식 비교표, 2026-03-03)

입력 토큰 가격은 2.5배 오르지만, 출력 토큰 가격은 $0.40 → $1.50으로 3.75배 오릅니다. 챗봇이나 텍스트 생성처럼 출력이 많은 워크로드라면 사실상 비용이 거의 4배 가까이 뜁니다. Reddit에서 한 개발자는 “2.5 Flash Lite로 $4,000 쓸 작업을 3.1 Flash-Lite로 돌리면 $10,000이 된다”고 직접 계산했습니다. (출처: Reddit r/Bard, 2026-03-10, 사용자 ThomasMalloc)

실제로 계산해볼 수 있는 공식은 이렇습니다. 입력 1M 토큰, 출력 1M 토큰을 매달 처리한다고 가정하면:

2.5 Flash-Lite 월 비용: $0.10 + $0.40 = $0.50
3.1 Flash-Lite 월 비용: $0.25 + $1.50 = $1.75
차이: 3.5배 증가 → 연간 기준 $6 vs $21 (1M/1M 기준)

※ 위 수치는 비사고 모드 기준이며, 사고 모드 활성화 시 추가 요금이 발생합니다.

▲ 목차로 돌아가기

Vertex AI라면 상황이 조금 다릅니다

Google이 이메일 공지에서 직접 명시한 문장이 있습니다. “Please note that this deprecation only applies to AI Studio and the Gemini API; the model is not being discontinued on Vertex AI.” Vertex AI를 통해 서비스를 운영하는 경우라면 3월 31일 데드라인이 적용되지 않습니다. 실제로 공식 Vertex AI 문서 기준 gemini-2.5-flash-lite GA 버전의 Vertex AI 종료일은 2026년 7월 22일입니다. (출처: Google Cloud Vertex AI 공식 문서)

이 부분이 좀 아쉬웠습니다. Google이 이메일을 통해 공지를 보냈지만, 개발자 포럼에서는 “Vertex AI도 함께 종료되는 것 아니냐”는 혼란이 이어졌습니다. 플랫폼에 따라 종료일이 다른 구조이기 때문에, 내 서비스가 Gemini API 직접 호출인지, Vertex AI 경유인지를 먼저 확인하는 것이 판단의 출발점입니다.

📋 플랫폼별 종료 일정 정리
Gemini API / AI Studio
Preview: 2026.03.31
GA: 2026.07.22
Vertex AI
GA: 2026.07.22
Preview 종료 미적용

▲ 목차로 돌아가기

Gemini 3.1 Flash-Lite가 실제로 더 좋아졌나요?

비용만 오른 건 아닙니다. 공식 모델 카드 벤치마크 수치(출처: deepmind.google/models/model-cards/gemini-3-1-flash-lite, 2026-03-03)를 보면 2.5 Flash-Lite 대비 실질적인 성능 향상이 확인됩니다. 가장 두드러지는 지점은 다중언어 성능으로, MMMLU(다국어 Q&A) 기준 2.5 Flash-Lite의 84.5%에서 3.1 Flash-Lite는 88.9%로 올랐습니다. 한국어처럼 영어권 외 언어를 주로 쓰는 서비스라면 이 수치가 의미가 있습니다. 4.4%p 차이가 실제 사용성에서 어느 정도로 느껴지는지는 워크로드마다 다르겠지만, 숫자 자체는 명확합니다.

💡 벤치마크 수치와 속도를 같이 놓고 보면 이런 그림이 나왔습니다

3.1 Flash-Lite의 출력 속도는 363 t/s로, 2.5 Flash-Lite의 366 t/s와 거의 동일합니다. 즉, 속도 저하 없이 추론 품질과 다국어 성능이 올라간 셈입니다. 반면 FACTS(사실성) 벤치마크에서는 2.5 Flash Dynamic(50.4%)이 3.1 Flash-Lite(40.6%)보다 높아, 사실 검증이 중요한 워크로드에서는 상위 모델을 고려할 필요가 있습니다.

벤치마크 2.5 Flash-Lite 3.1 Flash-Lite 변화
GPQA Diamond (과학 추론) 66.7% 86.9% +20.2%p
MMMU-Pro (멀티모달 추론) 51.0% 76.8% +25.8%p
MMMLU (다국어 Q&A) 84.5% 88.9% +4.4%p
FACTS (사실성) 17.9% 40.6% ↑ (2.5 Flash Dynamic 50.4%에는 미달)

(출처: Google DeepMind 모델 카드, 2026-03-03 기준 / Gemini 3.1 Flash-Lite High·Dynamic 모드 기준)

▲ 목차로 돌아가기

지금 당장 해야 할 것 딱 하나

이게 핵심입니다. 모델 ID를 명시적으로 고정해두는 것, 바로 이 하나입니다. 대부분의 상황에서 3월 31일 이후에 서비스가 갑자기 에러를 던지지는 않습니다. 그보다는 -latest 별칭을 쓰는 코드가 조용히 더 비싼 모델로 전환되는 케이스가 더 위험합니다. 청구 알림을 제대로 설정해두지 않았다면 한 달치 청구서가 올 때까지 모를 수도 있습니다.

💡 마이그레이션 공지와 실제 비용 흐름을 같이 보면 이런 순서가 됩니다

당장 3.1 Flash-Lite로 이전할 필요는 없습니다. gemini-2.5-flash-lite GA 버전은 7월까지 유지됩니다. 서두를 필요는 없지만, -latest 를 쓰고 있다면 GA 버전으로 고정하는 한 줄 수정이 3월 31일 전에 필요합니다.

✅ 단계별 대응 체크리스트
STEP 1
코드베이스에서 gemini-2.5-flash-lite 관련 문자열 전수 검색
STEP 2
-latest 또는 -preview-09-2025가 있으면 gemini-2.5-flash-lite (버전 없음)으로 교체
STEP 3
Google AI Studio 또는 GCP 콘솔에서 예산 알림 설정 확인
선택
7월 이후 이전을 대비해 3.1 Flash-Lite Preview로 성능 테스트 시작 (현재 Preview 상태, 별도 가격 적용)

▲ 목차로 돌아가기

Q&A

Q1. 3월 31일 이후에도 gemini-2.5-flash-lite-preview-09-2025로 API 호출을 하면 어떻게 되나요?
Google 공식 문서 기준으로, 종료된 모델 엔드포인트에 요청을 보내면 API가 오류를 반환합니다. 서비스 중단으로 이어질 수 있어, 3월 31일 전에 모델 ID를 교체하는 것이 안전합니다. (출처: Gemini API 지원 중단 페이지 안내 문구)
Q2. gemini-2.5-flash-lite (GA 버전)로 바꾸면 성능 차이가 있나요?
일반적으로 GA 버전이 가장 안정된 버전으로 간주됩니다. Preview-09-2025는 2025년 9월 개선된 버전이라 일부 태스크에서 응답 포맷 안정성이 더 좋다는 사용자 보고가 있었으나, GA 버전과 큰 차이는 없습니다. 자체 워크로드로 A/B 테스트를 해보는 것이 가장 정확합니다.
Q3. 3.1 Flash-Lite Preview가 “Preview” 상태인데, 프로덕션에 써도 될까요?
Google이 공식 후속 모델로 권장하고 있지만, Preview 상태는 별도 공지 없이 스펙이 변경될 수 있습니다. 개인 프로젝트나 테스트 용도라면 지금 바로 써볼 수 있고, 비용 예측이 중요한 프로덕션 환경이라면 GA 출시를 기다리는 것이 안정적입니다. 현재 이 모델의 종료일은 “미정”으로 명시되어 있습니다. (출처: 공식 지원 중단 페이지, 2026-03-11)
Q4. Gemini 2.0 Flash도 곧 없어지나요?
공식 지원 중단 페이지 기준(2026-03-11 업데이트), gemini-2.0-flashgemini-2.0-flash-lite GA 버전은 종료일이 2026년 6월 1일로 설정돼 있습니다. 당초 3월 31일로 알려졌던 일정이 연장된 것으로, 현재 공식 문서가 최신 기준입니다. 개발자 포럼에서도 이 변경에 대한 혼란이 있었으나, 공식 문서를 기준으로 삼는 것이 맞습니다.
Q5. 비용 절감을 원한다면 3.1 Flash-Lite 말고 다른 대안은 없나요?
모델 카드 공식 비교표 기준, 동급 경쟁 모델 중 Grok 4.1 Fast의 출력 가격은 $0.50/1M으로 3.1 Flash-Lite($1.50)보다 3배 저렴합니다. 단, 1M 컨텍스트 윈도우가 필요하거나 Google 생태계(Search Grounding, Vertex AI 등)와 통합이 필요한 경우라면 직접 비교가 어렵습니다. 확인 필요: 각 모델의 실제 사용 한도와 레이트 리밋이 다를 수 있습니다.

▲ 목차로 돌아가기

마치며

솔직히 말하면, 이번 공지에서 Google이 아쉬운 점이 있습니다. “비용 효율적”이라는 표현을 전면에 내세웠지만, 입력 토큰 가격만 보면 그렇게 볼 수도 있습니다. 하지만 실제로 돈이 나가는 출력 토큰은 3.75배나 뛰었습니다. 성능이 확실히 좋아진 부분도 있지만, Preview 라벨이 붙은 이상 프로덕션 비용 예측이 어렵다는 것도 사실입니다.

3월 31일이 13일밖에 남지 않은 시점에서, 가장 먼저 할 일은 간단합니다. 코드에서 gemini-2.5-flash-lite가 들어간 문자열을 전부 찾아서 어느 버전을 쓰는지 확인하는 것. 그게 전부입니다. GA 버전을 쓰고 있다면 지금 당장 바꿀 건 없고, Preview를 쓰고 있다면 GA로 교체하면 4개월이 더 생깁니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Google AI for Developers — Gemini 지원 중단 공식 페이지 (최종 업데이트 2026-03-11)
  2. Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026-03-03)
  3. Google DeepMind — Gemini 3.1 Flash-Lite Model Card (2026-03-03)
  4. Google Cloud — Vertex AI 생성형 AI 가격 공식 페이지
  5. Artificial Analysis — Gemini 3.1 Flash-Lite vs 2.5 Flash-Lite 비교

⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 18일 기준 공개된 공식 자료를 바탕으로 작성되었으며, Gemini API 모델 지원 중단 일정은 Google이 언제든 조정할 수 있습니다. 가장 정확한 정보는 공식 지원 중단 페이지에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기