gemini-2.5-flash-lite-preview-09-2025 기준
Gemini 2.5 Flash-Lite 종료,
후속작이 더 비쌉니다
2026년 3월 31일, Gemini 2.5 Flash-Lite preview가 조용히 꺼집니다. 그런데 구글이 권장하는 후속 모델 가격이 오히려 높다는 걸 아셨나요? 공식 문서 수치로 직접 확인했습니다.
3월 31일에 뭐가 꺼지는 건지 먼저 정확히 알아야 합니다
Gemini 2.5 Flash-Lite는 하나의 모델이 아닙니다. 구글 공식 지원 중단 페이지에 따르면, 지금 종료 예정인 건 미리보기 버전인 gemini-2.5-flash-lite-preview-09-2025입니다. 이 버전은 2025년 9월 25일에 출시된 프리뷰 빌드로, 2026년 3월 31일부터 API 호출이 완전히 차단됩니다. (출처: Gemini API 지원 중단 공식 페이지, 2026.03.11 업데이트)
API를 직접 연동해서 쓰는 개발자라면 지금 당장 모델 스트링을 점검해야 합니다. 앱이나 서비스가 이 특정 문자열을 하드코딩으로 쓰고 있다면 4월 1일 새벽에 에러가 쏟아집니다.
반면 Gemini 앱이나 AI Studio를 그냥 사용하는 경우라면, 이 종료는 직접적인 영향이 없습니다. 소비자용 앱은 내부적으로 별도 버전을 씁니다.
GA 버전은 아직 살아 있습니다 — 헷갈리면 손해입니다
💡 공식 발표문과 지원 중단 일정표를 같이 놓고 보니 이런 차이가 보였습니다. 많은 글이 두 버전을 같은 것처럼 다룹니다.
정식 출시(GA) 버전인 gemini-2.5-flash-lite의 종료일은 2026년 7월 22일입니다. 3월 31일이 아닙니다. 이 두 가지를 혼동하면 아직 유효한 GA 버전을 버리고 서둘러 더 비싼 신모델로 갈아탈 수 있습니다. (출처: Gemini API 지원 중단 공식 페이지)
| 모델 ID | 종류 | 종료일 |
|---|---|---|
gemini-2.5-flash-lite-preview-09-2025 |
Preview | 2026년 3월 31일 |
gemini-2.5-flash-lite |
GA (정식) | 2026년 7월 22일 |
gemini-3.1-flash-lite-preview |
신규 Preview | 미정 |
구글 공식 권장 교체 모델은 gemini-3.1-flash-lite-preview이지만, GA 버전 사용자라면 7월까지 여유가 있습니다. 서두를 필요가 없습니다.
권장 후속 모델 가격이 더 높은 이유
💡 “후속 모델이니까 더 저렴하겠지”라는 생각, 여기서는 맞지 않습니다. 가격 구조를 공식 문서로 직접 따져봤습니다.
구글이 2026년 3월 3일 공식 블로그에서 발표한 Gemini 3.1 Flash-Lite의 가격은 입력 토큰 100만 개당 $0.25, 출력 100만 개당 $1.50입니다. 반면 현행 GA 버전인 gemini-2.5-flash-lite는 입력 $0.10, 출력 $0.40입니다. (출처: Gemini API 공식 가격 페이지, 2026.03)
| 항목 | 2.5 Flash-Lite (GA) | 3.1 Flash-Lite (Preview) | 가격 변화 |
|---|---|---|---|
| 입력 (1M 토큰) | $0.10 | $0.25 | +150% |
| 출력 (1M 토큰) | $0.40 | $1.50 | +275% |
| 출력 속도 | N/A | 363 토큰/초 | +45% ↑ |
출력 토큰 기준으로 3.75배 비싸집니다. 하루 1,000만 토큰을 출력하는 서비스라면 월 비용 계산이 이렇게 달라집니다.
📊 간단 비용 계산 (출력 1,000만 토큰/일 기준)
2.5 Flash-Lite GA: $0.40 × 10 = $4.00/일 → 약 $120/월
3.1 Flash-Lite: $1.50 × 10 = $15.00/일 → 약 $450/월
→ 월 약 $330 추가 부담
대용량 처리 워크로드에서는 직접 계산해보기 전까지 이 차이를 체감하기 어렵습니다.
3.1 Flash-Lite가 더 비싼데도 쓸 이유가 생기는 경우
성능 지표를 공식 벤치마크 보고서(Google DeepMind, 2026년 3월)와 비교했을 때, 상당한 성능 격차가 있습니다. 단순히 가격만 보면 손해처럼 보이지만, 특정 상황에서는 더 싸게 먹힐 수 있습니다. (출처: Google DeepMind 공식 벤치마크 보고서, 2026.03)
| 벤치마크 | 2.5 Flash-Lite | 3.1 Flash-Lite |
|---|---|---|
| GPQA Diamond (고급 추론) | 64.6% | 86.9% |
| Humanity’s Last Exam | 5.1% | 16% |
| SimpleQA (사실성) | 13% | 43.3% |
| 출력 속도 | N/A | 363 토큰/초 |
SimpleQA에서 3.1이 3배 이상 높습니다. 사실 오류 하나가 사람이 검수하는 비용으로 이어지는 콘텐츠 분류나 태깅 작업이라면, 오류율 감소 효과가 가격 차이를 상쇄할 수 있습니다.
💡 가격 비교에서 빠진 맥락을 추가하니 다른 그림이 보입니다. 속도가 2.5배 빠르다는 건, 동일 시간에 2.5배 더 많은 요청을 처리한다는 뜻입니다. 고처리량 환경에서는 인프라 비용 구조가 달라집니다.
구글 공식 블로그에 따르면 3.1 Flash-Lite는 Artificial Analysis 기준 2.5 Flash 대비 45% 빠른 출력 속도를 기록했습니다. 지연 시간(latency)이 수익 지표에 직결되는 실시간 서비스라면 가격 논의 전에 이 수치부터 봐야 합니다. (출처: Google 공식 블로그, 2026.03.03)
지금 당장 확인해야 할 마이그레이션 체크포인트
Preview 버전을 쓰고 있는지 모르는 경우도 꽤 많습니다. 2025년 9월 이후 AI Studio에서 테스트하고 그대로 운영에 투입했다면 -preview-09-2025 문자열이 포함되어 있을 가능성이 있습니다.
코드베이스에서 모델 ID 검색 — flash-lite 또는 preview-09-2025로 grep 실행
사용 버전 판별 — Preview 버전이면 3월 31일 이전 교체 필요. GA 버전(gemini-2.5-flash-lite)이면 7월까지 여유 있음
교체 모델 결정 — 비용 우선이면 GA 버전 유지 또는 gemini-flash-lite-latest 별칭 활용. 성능·속도 우선이면 3.1 Flash-Lite Preview 테스트
토큰 예산 재계산 — 3.1 Flash-Lite는 thinking 레벨이 있어 High 설정 시 토큰 소모가 늘어날 수 있음. 실제 비용은 사용 레벨에 따라 달라짐
구글은 -latest 별칭(gemini-flash-lite-latest)을 도입했는데, 이 별칭이 어떤 버전을 가리키는지는 업데이트마다 바뀔 수 있습니다. 구글 공식 문서에 따르면 버전 간 속도 제한, 비용, 사용 가능한 기능이 달라질 수 있다고 명시되어 있습니다.
공식 발표문에서 빠진 한 가지
💡 출시 발표문과 가격표를 나란히 놓고 보니, 강조된 수치 뒤에 가려진 조건이 보였습니다.
구글은 3월 3일 공식 블로그에서 3.1 Flash-Lite가 “가장 비용 효율적인 Gemini 3 시리즈 모델”이라고 소개했습니다. 이 표현은 맞습니다. 그런데 비교 기준이 Gemini 3 시리즈 내부입니다. Gemini 3 Pro($2.00/M 입력)나 3.1 Pro($2.00/M 입력)와 비교하면 3.1 Flash-Lite($0.25/M 입력)가 당연히 저렴합니다.
하지만 실제 교체 대상은 이전 세대인 2.5 Flash-Lite이고, 그 기준에서 보면 이야기가 달라집니다. 발표 자료에서 2.5 Flash-Lite와의 직접 가격 비교는 별도로 설명하지 않았습니다.
또 하나, 3.1 Flash-Lite는 출시 당시 여전히 Preview 상태입니다. 구글 공식 문서에 따르면 Preview 모델은 안정적인 GA 버전으로 전환되기 전에 변경될 수 있고, 요율 제한도 더 엄격합니다. 대용량 프로덕션 환경에서 바로 교체하기보다 병행 테스트를 먼저 하는 게 맞습니다.
써보니까 한국어 다국어 벤치마크(MMMLU)에서 3.1 Flash-Lite가 88.9%를 기록한 건 주목할 만한 수치입니다. 다국어 콘텐츠를 대규모로 처리하는 경우라면, 단순 토큰 단가보다 오류율과 후처리 비용까지 함께 계산해야 실제 손익을 알 수 있습니다.
자주 묻는 질문 Q&A
마치며
솔직히 말하면, 이번 종료는 꽤 조용하게 처리되고 있습니다. 구글이 공지 이메일을 보내긴 하지만, API를 직접 쓰는 개발자 중에 메일을 놓친 사람도 분명히 있을 겁니다.
핵심을 정리하면 이렇습니다. Preview 버전은 3월 31일, GA 버전은 7월 22일 — 이 두 날짜를 헷갈리지 않는 것만으로 불필요한 서비스 중단이나 성급한 마이그레이션을 피할 수 있습니다. 그리고 후속 모델이 동일한 비용 수준이라는 기대 없이, 성능 향상에 따른 가격 인상을 미리 계획에 반영하는 게 맞습니다.
3.1 Flash-Lite가 가격 대비 어떤 위치에 있는지는 결국 쓰임새에 따라 다릅니다. 번역·분류·레이블링처럼 정확도가 처리량에 직결되는 작업이라면 단가 이상의 가치가 있고, 단순 텍스트 완성이나 테스트 용도라면 GA 버전을 유지하는 것이 당분간 더 낫습니다.
본 포스팅 참고 자료
- Gemini API 공식 지원 중단 일정 페이지 (최종 업데이트: 2026-03-11)
- Google 공식 블로그 — Gemini 3.1 Flash-Lite 출시 발표 (2026.03.03)
- Gemini API 공식 가격 페이지 (2026.03 기준)
- Google DeepMind 공식 벤치마크 보고서 — Gemini 3.1 Flash-Lite (2026.03)
- Google Developers 블로그 — Gemini 2.5 Flash-Lite 업데이트 발표 (2025.09.25)
⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격과 지원 중단 일정은 구글 공식 페이지에서 반드시 재확인하세요. 본 포스팅의 모든 수치는 공식 문서 및 벤치마크 보고서를 기준으로 작성되었으며, API 버전 또는 서비스 정책 변경에 따라 실제 내용과 다를 수 있습니다.







댓글 남기기