Gemini API · Preview 모델
⚠️ D-13
Gemini 2.5 Flash Lite, 3월 31일에 다 끝날까요?
결론부터 말씀드리면, 반은 맞고 반은 틀립니다. Google이 이메일로 공지한 종료 대상은 gemini-2.5-flash-lite-preview-09-2025이고, GA 안정 버전인 gemini-2.5-flash-lite는 2026년 7월 22일까지 살아있습니다. 그런데 여기서 걸립니다. -latest 별칭을 쓰는 코드는 3월 31일 이후 자동으로 더 비싼 모델로 바뀝니다.
어떤 모델이 3월 31일에 꺼지는 건가요?
Google이 2026년 3월 10일 전후로 개발자 이메일을 통해 공지한 내용을 보면, 종료 대상은 정확히 gemini-2.5-flash-lite-preview-09-2025 하나입니다. 이 모델은 2025년 9월 25일에 출시된 Preview 버전으로, 공식 지원 중단 페이지에도 “2026년 3월 31일 종료”로 명시돼 있습니다. (출처: Google AI for Developers 지원 중단 페이지, 최종 업데이트 2026-03-11)
그런데 헷갈리는 지점이 있습니다. 이름이 비슷한 gemini-2.5-flash-lite(GA 안정 버전, 2025년 7월 22일 출시)는 종료일이 2026년 7월 22일로 따로 잡혀 있습니다. 같은 모델처럼 보이는 두 이름이 사실은 별개 엔드포인트고, 종료 일정도 약 4개월 차이가 납니다. 코드에서 어느 것을 호출하고 있는지 지금 한 번 확인해볼 필요가 있습니다.
Preview 버전 사용자 중 상당수가 GA 버전도 함께 종료된다고 오해하고 있습니다. 실제로는 AI Studio와 Gemini API에서만 Preview가 종료되며, GA 버전은 별도 일정으로 운영됩니다. 두 버전의 스펙 차이도 있으니 아래 표를 참고하세요.
| 모델 이름 | 출시일 | 종료일 | 권장 교체 |
|---|---|---|---|
gemini-2.5-flash-lite-preview-09-2025 |
2025.09.25 | 2026.03.31 ⚠️ | gemini-3.1-flash-lite-preview |
gemini-2.5-flash-lite (GA) |
2025.07.22 | 2026.07.22 ✅ | gemini-3.1-flash-lite-preview |
(출처: Google AI for Developers 공식 지원 중단 페이지, 2026-03-11 업데이트)
-latest 별칭이 있다면 지금 당장 확인해야 합니다
Google이 이메일 공지에서 명시한 핵심 변경사항이 있습니다. “The -latest alias will automatically point to Gemini 3.1 Flash Lite Preview (gemini-3.1-flash-lite-preview).” 즉, 코드에서 gemini-2.5-flash-lite-latest 형태의 별칭을 사용하고 있다면 3월 31일 이후 자동으로 3.1 버전으로 교체됩니다. 모델 이름을 바꾸지 않아도 비용 구조가 바뀌는 것입니다. 이게 생각보다 조용히 지나갈 수 있는 함정입니다.
막상 확인해보면 이 단계에서 멈추는 경우가 많습니다. 특히 OpenRouter, LangChain, 각종 AI 래퍼 서비스를 통해 간접적으로 Gemini를 호출하는 코드는 내부적으로 어느 모델 ID를 쓰는지 직접 들여다보지 않으면 알기 어렵습니다. 지금 사용 중인 환경의 SDK 버전과 모델 문자열을 한 번 grep해보는 것이 현실적으로 가장 빠릅니다.
gemini-2.5-flash-lite-preview-09-2025→ 3월 31일 종료 대상gemini-2.5-flash-lite-latest→ 자동으로 3.1로 교체됨gemini-2.5-flash-lite(버전 없음) → 7월 22일까지 안전
후속 모델로 가면 비용이 얼마나 달라질까요?
여기서 많이들 놀랍니다. Google 공식 블로그에서 Gemini 3.1 Flash-Lite를 소개하며 “비용 효율적”이라는 표현을 썼는데, 막상 수치를 들여다보면 뉘앙스가 달라집니다. 모델 카드(출처: deepmind.google/models/model-cards/gemini-3-1-flash-lite, 2026-03-03 발행) 기준 공식 가격을 비교하면 다음과 같습니다.
| 모델 | 입력 $/1M | 출력 $/1M | 출력 속도 (t/s) |
|---|---|---|---|
| Gemini 2.5 Flash-Lite (GA) | $0.10 | $0.40 | 366 t/s |
| Gemini 3.1 Flash-Lite Preview (신규) | $0.25 | $1.50 | 363 t/s |
| Gemini 2.5 Flash | $0.30 | $2.50 | 249 t/s |
(출처: Google DeepMind 모델 카드 공식 비교표, 2026-03-03)
입력 토큰 가격은 2.5배 오르지만, 출력 토큰 가격은 $0.40 → $1.50으로 3.75배 오릅니다. 챗봇이나 텍스트 생성처럼 출력이 많은 워크로드라면 사실상 비용이 거의 4배 가까이 뜁니다. Reddit에서 한 개발자는 “2.5 Flash Lite로 $4,000 쓸 작업을 3.1 Flash-Lite로 돌리면 $10,000이 된다”고 직접 계산했습니다. (출처: Reddit r/Bard, 2026-03-10, 사용자 ThomasMalloc)
실제로 계산해볼 수 있는 공식은 이렇습니다. 입력 1M 토큰, 출력 1M 토큰을 매달 처리한다고 가정하면:
3.1 Flash-Lite 월 비용: $0.25 + $1.50 = $1.75
차이: 3.5배 증가 → 연간 기준 $6 vs $21 (1M/1M 기준)
※ 위 수치는 비사고 모드 기준이며, 사고 모드 활성화 시 추가 요금이 발생합니다.
Vertex AI라면 상황이 조금 다릅니다
Google이 이메일 공지에서 직접 명시한 문장이 있습니다. “Please note that this deprecation only applies to AI Studio and the Gemini API; the model is not being discontinued on Vertex AI.” Vertex AI를 통해 서비스를 운영하는 경우라면 3월 31일 데드라인이 적용되지 않습니다. 실제로 공식 Vertex AI 문서 기준 gemini-2.5-flash-lite GA 버전의 Vertex AI 종료일은 2026년 7월 22일입니다. (출처: Google Cloud Vertex AI 공식 문서)
이 부분이 좀 아쉬웠습니다. Google이 이메일을 통해 공지를 보냈지만, 개발자 포럼에서는 “Vertex AI도 함께 종료되는 것 아니냐”는 혼란이 이어졌습니다. 플랫폼에 따라 종료일이 다른 구조이기 때문에, 내 서비스가 Gemini API 직접 호출인지, Vertex AI 경유인지를 먼저 확인하는 것이 판단의 출발점입니다.
Gemini 3.1 Flash-Lite가 실제로 더 좋아졌나요?
비용만 오른 건 아닙니다. 공식 모델 카드 벤치마크 수치(출처: deepmind.google/models/model-cards/gemini-3-1-flash-lite, 2026-03-03)를 보면 2.5 Flash-Lite 대비 실질적인 성능 향상이 확인됩니다. 가장 두드러지는 지점은 다중언어 성능으로, MMMLU(다국어 Q&A) 기준 2.5 Flash-Lite의 84.5%에서 3.1 Flash-Lite는 88.9%로 올랐습니다. 한국어처럼 영어권 외 언어를 주로 쓰는 서비스라면 이 수치가 의미가 있습니다. 4.4%p 차이가 실제 사용성에서 어느 정도로 느껴지는지는 워크로드마다 다르겠지만, 숫자 자체는 명확합니다.
3.1 Flash-Lite의 출력 속도는 363 t/s로, 2.5 Flash-Lite의 366 t/s와 거의 동일합니다. 즉, 속도 저하 없이 추론 품질과 다국어 성능이 올라간 셈입니다. 반면 FACTS(사실성) 벤치마크에서는 2.5 Flash Dynamic(50.4%)이 3.1 Flash-Lite(40.6%)보다 높아, 사실 검증이 중요한 워크로드에서는 상위 모델을 고려할 필요가 있습니다.
| 벤치마크 | 2.5 Flash-Lite | 3.1 Flash-Lite | 변화 |
|---|---|---|---|
| GPQA Diamond (과학 추론) | 66.7% | 86.9% | +20.2%p |
| MMMU-Pro (멀티모달 추론) | 51.0% | 76.8% | +25.8%p |
| MMMLU (다국어 Q&A) | 84.5% | 88.9% | +4.4%p |
| FACTS (사실성) | 17.9% | 40.6% | ↑ (2.5 Flash Dynamic 50.4%에는 미달) |
(출처: Google DeepMind 모델 카드, 2026-03-03 기준 / Gemini 3.1 Flash-Lite High·Dynamic 모드 기준)
지금 당장 해야 할 것 딱 하나
이게 핵심입니다. 모델 ID를 명시적으로 고정해두는 것, 바로 이 하나입니다. 대부분의 상황에서 3월 31일 이후에 서비스가 갑자기 에러를 던지지는 않습니다. 그보다는 -latest 별칭을 쓰는 코드가 조용히 더 비싼 모델로 전환되는 케이스가 더 위험합니다. 청구 알림을 제대로 설정해두지 않았다면 한 달치 청구서가 올 때까지 모를 수도 있습니다.
당장 3.1 Flash-Lite로 이전할 필요는 없습니다. gemini-2.5-flash-lite GA 버전은 7월까지 유지됩니다. 서두를 필요는 없지만, -latest 를 쓰고 있다면 GA 버전으로 고정하는 한 줄 수정이 3월 31일 전에 필요합니다.
코드베이스에서
gemini-2.5-flash-lite 관련 문자열 전수 검색
-latest 또는 -preview-09-2025가 있으면 gemini-2.5-flash-lite (버전 없음)으로 교체
Google AI Studio 또는 GCP 콘솔에서 예산 알림 설정 확인
7월 이후 이전을 대비해 3.1 Flash-Lite Preview로 성능 테스트 시작 (현재 Preview 상태, 별도 가격 적용)
Q&A
마치며
솔직히 말하면, 이번 공지에서 Google이 아쉬운 점이 있습니다. “비용 효율적”이라는 표현을 전면에 내세웠지만, 입력 토큰 가격만 보면 그렇게 볼 수도 있습니다. 하지만 실제로 돈이 나가는 출력 토큰은 3.75배나 뛰었습니다. 성능이 확실히 좋아진 부분도 있지만, Preview 라벨이 붙은 이상 프로덕션 비용 예측이 어렵다는 것도 사실입니다.
3월 31일이 13일밖에 남지 않은 시점에서, 가장 먼저 할 일은 간단합니다. 코드에서 gemini-2.5-flash-lite가 들어간 문자열을 전부 찾아서 어느 버전을 쓰는지 확인하는 것. 그게 전부입니다. GA 버전을 쓰고 있다면 지금 당장 바꿀 건 없고, Preview를 쓰고 있다면 GA로 교체하면 4개월이 더 생깁니다.
📎 본 포스팅 참고 자료
- Google AI for Developers — Gemini 지원 중단 공식 페이지 (최종 업데이트 2026-03-11)
- Google Blog — Gemini 3.1 Flash-Lite: Built for intelligence at scale (2026-03-03)
- Google DeepMind — Gemini 3.1 Flash-Lite Model Card (2026-03-03)
- Google Cloud — Vertex AI 생성형 AI 가격 공식 페이지
- Artificial Analysis — Gemini 3.1 Flash-Lite vs 2.5 Flash-Lite 비교
⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 18일 기준 공개된 공식 자료를 바탕으로 작성되었으며, Gemini API 모델 지원 중단 일정은 Google이 언제든 조정할 수 있습니다. 가장 정확한 정보는 공식 지원 중단 페이지에서 직접 확인하시기 바랍니다.


댓글 남기기