모델 ID: gemini-2.5-flash-lite-preview-09-2025
Gemini 2.5 Flash Lite, 3월 31일에 진짜 다 꺼지나요?
결론부터 말씀드리면, 꺼지는 건 하나의 프리뷰 모델 ID입니다. “Gemini 2.5 Flash Lite”라는 이름 전체가 사라지는 게 아닙니다. 그런데 많은 분들이 이 둘을 같은 것으로 알고 있습니다. 이번 글에서는 공식 문서에 나온 모델 ID별 종료 일정과, 교체 모델의 실제 성능 수치를 같이 확인해 봤습니다.
🗓 3월 31일 실제로 꺼지는 모델이 따로 있습니다
Google AI 공식 지원 중단 페이지에 나온 내용입니다. 이번 3월 31일에 종료되는 모델은 딱 하나입니다. gemini-2.5-flash-lite-preview-09-2025 — 2025년 9월 25일에 출시된 프리뷰 버전입니다. (출처: Google AI Gemini API 지원 중단 공식 문서, 2026.03.11 업데이트)
반면 정식 GA 버전인 gemini-2.5-flash-lite(2025년 7월 22일 출시)는 2026년 7월 22일까지 유지됩니다. 같은 “2.5 Flash Lite”라는 이름이지만 모델 ID 끝에 날짜 태그가 붙느냐 아니냐에 따라 종료 일정이 4개월 가까이 차이납니다.
📌 공식 문서에 나온 두 모델 ID 종료 일정
• gemini-2.5-flash-lite-preview-09-2025 → 2026.03.31 종료
• gemini-2.5-flash-lite (GA) → 2026.07.22 종료
권장 교체 모델: gemini-3.1-flash-lite-preview
지금 당장 코드에 preview-09-2025가 붙은 모델 ID를 쓰고 있다면 3월 31일 이후 호출이 즉시 실패합니다. GA 버전을 쓰고 있다면 7월까지는 시간이 있습니다.
😵 헷갈리는 이유 — 모델 이름이 너무 비슷합니다
솔직히 말하면 Google이 모델 ID 체계를 복잡하게 만든 책임이 있습니다. 같은 “Gemini 2.5 Flash Lite”라는 이름 아래 세 가지 버전이 동시에 존재했습니다. -preview-06-17(2025년 6월), -preview-09-2025(2025년 9월), 그리고 날짜 태그 없는 GA 버전입니다.
이 중 6월 버전은 이미 2025년 11월에 종료됐고, 9월 버전은 이번 달 말 종료됩니다. GA 버전만 7월까지 남습니다. 이 구분 없이 “2.5 Flash Lite 종료”라는 말을 들으면 당연히 모든 버전이 사라지는 것으로 이해하게 됩니다.
💡 공식 발표문과 실제 모델 ID 목록을 같이 보면 이 차이가 보입니다
공식 문서는 이미 종료된 모델을 회색 배경으로 표기합니다. 현재(2026.03.21) 회색 처리된 항목들을 보면 preview-06-17 버전은 이미 꺼졌고, GA 버전은 활성 상태입니다. 단순히 이름만 보고 대응하면 잘못된 마이그레이션을 할 수 있습니다.
정확한 종료 일정은 공식 URL ai.google.dev/gemini-api/docs/deprecations에서 모델 ID를 직접 대조해서 확인하는 게 가장 확실합니다.
📊 교체 모델 3.1 Flash-Lite, 숫자로 비교했습니다
Google이 권장하는 교체 모델은 gemini-3.1-flash-lite-preview입니다. 2026년 3월 3일 공식 출시됐습니다. (출처: Google 공식 블로그, 2026.03.03)
Google과 Artificial Analysis가 발표한 수치를 놓고 보면, 단순 교체가 아니라 상당한 성능 도약이 확인됩니다.
| 항목 | 2.5 Flash Lite (preview-09-2025) |
3.1 Flash-Lite Preview |
|---|---|---|
| 출력 속도 | 약 249 tok/s | 약 380 tok/s (+45%) |
| 첫 토큰 응답(TTFT) | 기준 | 2.5배 빠름 |
| 입력 가격 | $0.10/1M 토큰 | $0.25/1M 토큰 |
| 출력 가격 | $0.40/1M 토큰 | $1.50/1M 토큰 |
| 컨텍스트 윈도우 | 1M 토큰 | 1M 토큰 유지 |
| Thinking Mode | ❌ | ✅ 기본 제공 |
| GPQA Diamond | 공개 없음 | 86.9% |
| Arena Elo | 공개 없음 | 1432 |
| 종료일 | 2026.03.31 | 종료일 미정 |
(출처: Google AI 공식 지원 중단 문서, Google 공식 블로그, Artificial Analysis 벤치마크, 2026.03.03)
가격은 올랐지만 속도가 45% 빨라졌습니다. 대용량 처리 환경에서는 응답 시간 단축이 서버 비용을 낮추는 효과가 있어 단순 가격 비교만으로 판단하기 어렵습니다.
💸 GPT-5 mini보다 싸다는 말이 반만 맞는 이유
3.1 Flash-Lite가 경쟁 모델 대비 저렴하다는 말이 많습니다. 직접 숫자로 비교하면 실제로는 조건이 붙습니다. (출처: Google AI 공식 가격 문서 ai.google.dev/gemini-api/docs/pricing, Google 공식 블로그, 2026.03.03)
💡 가격 수치를 같이 놓고 보니 이런 차이가 있었습니다
• GPT-5 mini: 입력 $0.15/M, 출력 $0.60/M → 절대 가격은 더 낮음
• Gemini 3.1 Flash-Lite: 입력 $0.25/M, 출력 $1.50/M → 컨텍스트 1M 토큰 포함
• Claude 4.5 Haiku: 입력 $1.00/M, 출력 $5.00/M → 가장 비쌈
GPT-5 mini의 컨텍스트는 128K 토큰입니다. 3.1 Flash-Lite는 1M 토큰입니다. 8배 차이입니다. 긴 문서나 대규모 코드베이스를 처리할 때 GPT-5 mini는 여러 번 나눠 호출해야 하는 상황이 생기고, 그 분할 비용을 합산하면 Flash-Lite가 실질적으로 더 저렴해지는 구간이 생깁니다.
단순히 토큰당 가격만 비교하면 GPT-5 mini가 더 싸 보입니다. 실제 사용 패턴에서 컨텍스트 길이가 중요한 작업이면 계산이 달라집니다.
가격 인상이 맞는데 왜 교체를 권장할까요?
이 부분이 좀 아쉬웠습니다. Google은 교체를 권장하면서도 가격 인상 이유를 공식적으로 밝히지 않았습니다. 9월 프리뷰 기준으로 입력 $0.10 → $0.25(2.5배), 출력 $0.40 → $1.50(3.75배)입니다. Thinking Mode 추가와 아키텍처 세대 교체가 반영된 것으로 볼 수 있지만, 공식 가격 문서에 별도 설명이 없습니다.
🏗 “더 작은 모델”인데 성능이 더 높은 구조적 이유
여기서 기대했던 것과 다른 점 하나가 있습니다. 3.1 Flash-Lite는 “가벼운 경량 모델”이라고 소개되지만, 벤치마크에서는 같은 세대의 상위 버전인 2.5 Flash를 추월합니다. GPQA Diamond 기준으로 3.1 Flash-Lite가 86.9%를 기록했습니다. 이전 세대인 2.5 Flash 전체를 뛰어넘는 수치입니다. (출처: Google 공식 블로그, Artificial Analysis, 2026.03.03)
💡 모델 아키텍처 계보를 같이 보니 이게 보였습니다
3.1 Flash-Lite는 “Gemini 3 Pro 아키텍처 기반”입니다. 즉, 상위 세대인 Gemini 3 Pro의 내부 구조를 가져다 경량화한 버전입니다. 2.5 Flash는 Gemini 2 계열 아키텍처입니다. 세대 차이가 있기 때문에, 이름에서 “Lite”라고 해도 이전 세대 “Flash”보다 특정 추론 벤치마크에서 앞서는 결과가 나옵니다.
다만 이것이 모든 작업에서 3.1 Flash-Lite가 우위라는 뜻은 아닙니다. 복잡한 창작, 고도 추론, 이미지/오디오 출력이 필요한 경우는 여전히 상위 모델이 필요합니다. Google도 공식 블로그에서 “번역, 콘텐츠 심사, UI 생성, 시뮬레이션”처럼 반복성이 높고 대용량인 작업에 최적화됐다고 밝혔습니다.
또 하나 — 3.1 Flash-Lite는 현재 프리뷰 상태입니다. 종료일이 “미정”이라는 말은 정식 버전으로 전환 후 별도 일정이 공지될 예정이라는 의미입니다. 프리뷰 모델을 프로덕션 핵심 경로에 바로 투입하기 전에 폴백(fallback) 플랜을 세워두는 게 실무적으로 맞습니다.
🔧 마이그레이션 전에 꼭 확인할 3가지
막상 교체해보면 단순 모델 ID 교체만으로 끝나지 않는 경우가 있습니다. 공식 문서와 실사용 경험을 교차해보니 아래 세 가지가 실제로 달라집니다.
① Thinking Mode 토큰 소비량 주의
3.1 Flash-Lite는 Thinking Mode가 기본 제공되는 구조입니다. HIGH 모드로 설정하면 추론 토큰을 추가로 소비합니다. 기존에 2.5 Flash Lite를 쓰던 방식대로 그대로 붙이면 예상보다 비용이 늘어날 수 있습니다. Reddit 사용 후기에서 “HIGH 모드에서 토큰을 너무 많이 써서 한도를 소진했다”는 사례가 이미 보고됐습니다. AI Studio에서 Thinking 레벨을 “None” 또는 “Low”로 직접 지정해서 테스트하는 걸 권장합니다.
② Live API 미지원
3.1 Flash-Lite는 실시간 스트리밍 대화용 Live API를 지원하지 않습니다. 기존에 Live API와 연계된 실시간 음성/텍스트 인터페이스를 구현했다면 교체 후 해당 기능이 작동하지 않습니다. 이 경우 별도로 Live API 지원 모델(gemini-2.5-flash 등)을 병행 유지해야 합니다.
③ GA 버전 전환 전 프리뷰 안정성 검증
3.1 Flash-Lite는 현재 프리뷰 버전입니다. 프리뷰 기간 동안 응답 포맷, 가격, 기능이 정식 출시 전에 변경될 수 있습니다. 핵심 프로덕션 파이프라인에 투입할 경우 GA 버전(gemini-2.5-flash-lite)을 기본으로 두고, 3.1 Flash-Lite는 보조 경로로 병행 운영하면서 안정성을 먼저 확인하는 방식이 실용적입니다.
❓ 자주 나오는 질문 5개
✍️ 마치며
이번 종료 이슈에서 제일 아쉬운 점은 Google이 모델 ID 명명 규칙을 너무 복잡하게 쌓아온 것입니다. 같은 이름 안에 6월 프리뷰, 9월 프리뷰, GA 버전이 섞여 있다 보니 “Gemini 2.5 Flash Lite 종료” 한 줄만 보고 잘못 판단하는 경우가 생깁니다.
교체 대상인 3.1 Flash-Lite는 성능 면에서는 괜찮습니다. 이전 세대 Flash를 벤치마크에서 추월하고, Thinking Mode까지 들어간 것은 경량 모델 기준으로 꽤 파격적입니다. 다만 여전히 프리뷰 상태이고 가격이 올랐기 때문에, 무조건 전환보다는 현재 GA 버전과 병행 운영하면서 워크로드별로 검증하는 게 현실적인 접근입니다.
핵심은 결국 하나입니다. 지금 당장 코드에서 모델 ID를 확인하고, -preview-09-2025가 붙어 있다면 3월 31일 전에 교체하면 됩니다.
📚 본 포스팅 참고 자료
본 포스팅 작성 이후 Google Gemini API 서비스 정책·모델 ID·가격·기능이 변경될 수 있습니다. 정확한 최신 정보는 공식 문서에서 직접 확인하시기 바랍니다. 본 포스팅은 특정 서비스 사용을 권장하거나 보증하지 않습니다.

댓글 남기기