Gemini 2.5 Flash-Lite 종료, 후속작이 더 비쌉니다

Published on

in

Gemini 2.5 Flash-Lite 종료, 후속작이 더 비쌉니다

2026.03.22 기준
gemini-2.5-flash-lite-preview-09-2025 기준

Gemini 2.5 Flash-Lite 종료,
후속작이 더 비쌉니다

2026년 3월 31일, Gemini 2.5 Flash-Lite preview가 조용히 꺼집니다. 그런데 구글이 권장하는 후속 모델 가격이 오히려 높다는 걸 아셨나요? 공식 문서 수치로 직접 확인했습니다.

3월 31일
Preview 버전 종료일
2.5배
후속 모델 입력 가격 상승폭
7월 22일
GA 버전 종료일 (별도)

3월 31일에 뭐가 꺼지는 건지 먼저 정확히 알아야 합니다

Gemini 2.5 Flash-Lite는 하나의 모델이 아닙니다. 구글 공식 지원 중단 페이지에 따르면, 지금 종료 예정인 건 미리보기 버전인 gemini-2.5-flash-lite-preview-09-2025입니다. 이 버전은 2025년 9월 25일에 출시된 프리뷰 빌드로, 2026년 3월 31일부터 API 호출이 완전히 차단됩니다. (출처: Gemini API 지원 중단 공식 페이지, 2026.03.11 업데이트)

API를 직접 연동해서 쓰는 개발자라면 지금 당장 모델 스트링을 점검해야 합니다. 앱이나 서비스가 이 특정 문자열을 하드코딩으로 쓰고 있다면 4월 1일 새벽에 에러가 쏟아집니다.

반면 Gemini 앱이나 AI Studio를 그냥 사용하는 경우라면, 이 종료는 직접적인 영향이 없습니다. 소비자용 앱은 내부적으로 별도 버전을 씁니다.

▲ 목차로 돌아가기

GA 버전은 아직 살아 있습니다 — 헷갈리면 손해입니다

💡 공식 발표문과 지원 중단 일정표를 같이 놓고 보니 이런 차이가 보였습니다. 많은 글이 두 버전을 같은 것처럼 다룹니다.

정식 출시(GA) 버전인 gemini-2.5-flash-lite의 종료일은 2026년 7월 22일입니다. 3월 31일이 아닙니다. 이 두 가지를 혼동하면 아직 유효한 GA 버전을 버리고 서둘러 더 비싼 신모델로 갈아탈 수 있습니다. (출처: Gemini API 지원 중단 공식 페이지)

모델 ID 종류 종료일
gemini-2.5-flash-lite-preview-09-2025 Preview 2026년 3월 31일
gemini-2.5-flash-lite GA (정식) 2026년 7월 22일
gemini-3.1-flash-lite-preview 신규 Preview 미정

구글 공식 권장 교체 모델은 gemini-3.1-flash-lite-preview이지만, GA 버전 사용자라면 7월까지 여유가 있습니다. 서두를 필요가 없습니다.

▲ 목차로 돌아가기

권장 후속 모델 가격이 더 높은 이유

💡 “후속 모델이니까 더 저렴하겠지”라는 생각, 여기서는 맞지 않습니다. 가격 구조를 공식 문서로 직접 따져봤습니다.

구글이 2026년 3월 3일 공식 블로그에서 발표한 Gemini 3.1 Flash-Lite의 가격은 입력 토큰 100만 개당 $0.25, 출력 100만 개당 $1.50입니다. 반면 현행 GA 버전인 gemini-2.5-flash-lite는 입력 $0.10, 출력 $0.40입니다. (출처: Gemini API 공식 가격 페이지, 2026.03)

항목 2.5 Flash-Lite (GA) 3.1 Flash-Lite (Preview) 가격 변화
입력 (1M 토큰) $0.10 $0.25 +150%
출력 (1M 토큰) $0.40 $1.50 +275%
출력 속도 N/A 363 토큰/초 +45% ↑

출력 토큰 기준으로 3.75배 비싸집니다. 하루 1,000만 토큰을 출력하는 서비스라면 월 비용 계산이 이렇게 달라집니다.

📊 간단 비용 계산 (출력 1,000만 토큰/일 기준)

2.5 Flash-Lite GA: $0.40 × 10 = $4.00/일 → 약 $120/월
3.1 Flash-Lite: $1.50 × 10 = $15.00/일 → 약 $450/월
→ 월 약 $330 추가 부담

대용량 처리 워크로드에서는 직접 계산해보기 전까지 이 차이를 체감하기 어렵습니다.

▲ 목차로 돌아가기

3.1 Flash-Lite가 더 비싼데도 쓸 이유가 생기는 경우

성능 지표를 공식 벤치마크 보고서(Google DeepMind, 2026년 3월)와 비교했을 때, 상당한 성능 격차가 있습니다. 단순히 가격만 보면 손해처럼 보이지만, 특정 상황에서는 더 싸게 먹힐 수 있습니다. (출처: Google DeepMind 공식 벤치마크 보고서, 2026.03)

벤치마크 2.5 Flash-Lite 3.1 Flash-Lite
GPQA Diamond (고급 추론) 64.6% 86.9%
Humanity’s Last Exam 5.1% 16%
SimpleQA (사실성) 13% 43.3%
출력 속도 N/A 363 토큰/초

SimpleQA에서 3.1이 3배 이상 높습니다. 사실 오류 하나가 사람이 검수하는 비용으로 이어지는 콘텐츠 분류나 태깅 작업이라면, 오류율 감소 효과가 가격 차이를 상쇄할 수 있습니다.

💡 가격 비교에서 빠진 맥락을 추가하니 다른 그림이 보입니다. 속도가 2.5배 빠르다는 건, 동일 시간에 2.5배 더 많은 요청을 처리한다는 뜻입니다. 고처리량 환경에서는 인프라 비용 구조가 달라집니다.

구글 공식 블로그에 따르면 3.1 Flash-Lite는 Artificial Analysis 기준 2.5 Flash 대비 45% 빠른 출력 속도를 기록했습니다. 지연 시간(latency)이 수익 지표에 직결되는 실시간 서비스라면 가격 논의 전에 이 수치부터 봐야 합니다. (출처: Google 공식 블로그, 2026.03.03)

▲ 목차로 돌아가기

지금 당장 확인해야 할 마이그레이션 체크포인트

Preview 버전을 쓰고 있는지 모르는 경우도 꽤 많습니다. 2025년 9월 이후 AI Studio에서 테스트하고 그대로 운영에 투입했다면 -preview-09-2025 문자열이 포함되어 있을 가능성이 있습니다.

STEP 1

코드베이스에서 모델 ID 검색flash-lite 또는 preview-09-2025로 grep 실행

STEP 2

사용 버전 판별 — Preview 버전이면 3월 31일 이전 교체 필요. GA 버전(gemini-2.5-flash-lite)이면 7월까지 여유 있음

STEP 3

교체 모델 결정 — 비용 우선이면 GA 버전 유지 또는 gemini-flash-lite-latest 별칭 활용. 성능·속도 우선이면 3.1 Flash-Lite Preview 테스트

STEP 4

토큰 예산 재계산 — 3.1 Flash-Lite는 thinking 레벨이 있어 High 설정 시 토큰 소모가 늘어날 수 있음. 실제 비용은 사용 레벨에 따라 달라짐

구글은 -latest 별칭(gemini-flash-lite-latest)을 도입했는데, 이 별칭이 어떤 버전을 가리키는지는 업데이트마다 바뀔 수 있습니다. 구글 공식 문서에 따르면 버전 간 속도 제한, 비용, 사용 가능한 기능이 달라질 수 있다고 명시되어 있습니다.

▲ 목차로 돌아가기

공식 발표문에서 빠진 한 가지

💡 출시 발표문과 가격표를 나란히 놓고 보니, 강조된 수치 뒤에 가려진 조건이 보였습니다.

구글은 3월 3일 공식 블로그에서 3.1 Flash-Lite가 “가장 비용 효율적인 Gemini 3 시리즈 모델”이라고 소개했습니다. 이 표현은 맞습니다. 그런데 비교 기준이 Gemini 3 시리즈 내부입니다. Gemini 3 Pro($2.00/M 입력)나 3.1 Pro($2.00/M 입력)와 비교하면 3.1 Flash-Lite($0.25/M 입력)가 당연히 저렴합니다.

하지만 실제 교체 대상은 이전 세대인 2.5 Flash-Lite이고, 그 기준에서 보면 이야기가 달라집니다. 발표 자료에서 2.5 Flash-Lite와의 직접 가격 비교는 별도로 설명하지 않았습니다.

또 하나, 3.1 Flash-Lite는 출시 당시 여전히 Preview 상태입니다. 구글 공식 문서에 따르면 Preview 모델은 안정적인 GA 버전으로 전환되기 전에 변경될 수 있고, 요율 제한도 더 엄격합니다. 대용량 프로덕션 환경에서 바로 교체하기보다 병행 테스트를 먼저 하는 게 맞습니다.

써보니까 한국어 다국어 벤치마크(MMMLU)에서 3.1 Flash-Lite가 88.9%를 기록한 건 주목할 만한 수치입니다. 다국어 콘텐츠를 대규모로 처리하는 경우라면, 단순 토큰 단가보다 오류율과 후처리 비용까지 함께 계산해야 실제 손익을 알 수 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

▶ 3월 31일 이후 기존 코드 그대로 두면 어떻게 됩니까?
gemini-2.5-flash-lite-preview-09-2025를 명시한 API 호출이 오류를 반환합니다. Google AI Studio에서 보내는 이메일 공지에 2주 전 예고가 있으니, 수신 여부를 먼저 확인해보는 게 좋습니다.
▶ GA 버전 gemini-2.5-flash-lite를 계속 써도 됩니까?
네, 2026년 7월 22일까지 유효합니다. 공식 지원 중단 페이지에 7월 22일이 종료일로 명시되어 있습니다. 대용량 서비스 중이라면 이 GA 버전을 유지하면서 3.1 Preview를 병행 테스트하는 방법이 실용적입니다.
▶ gemini-flash-lite-latest 별칭을 쓰면 자동으로 최신 버전이 됩니까?
그렇습니다. 다만 구글 공식 문서는 “-latest 별칭은 버전 간 속도 제한, 비용, 사용 가능한 기능이 달라질 수 있다”고 명시합니다. 예상치 못한 가격 변동이 생길 수 있으니, 프로덕션에서 비용 모니터링은 필수입니다.
▶ Gemini 앱 일반 사용자도 영향을 받습니까?
직접적인 영향은 없습니다. 이번 종료는 API 레벨의 변경이고, Gemini 앱은 내부적으로 다른 모델 관리 체계를 씁니다. 다만 AI Studio에서 직접 해당 모델 문자열을 선택해 사용 중이었다면 3.1 Flash-Lite로 교체가 필요합니다.
▶ 무료 티어도 3월 31일 이후 차단됩니까?
그렇습니다. 3.1 Flash-Lite Preview는 무료 티어에서 이용 가능하고, 공식 가격 페이지에 따르면 Free Tier 입력·출력 모두 무료로 표시되어 있습니다. 무료 티어 사용자는 비용 걱정 없이 3.1 Preview로 교체할 수 있습니다.

마치며

솔직히 말하면, 이번 종료는 꽤 조용하게 처리되고 있습니다. 구글이 공지 이메일을 보내긴 하지만, API를 직접 쓰는 개발자 중에 메일을 놓친 사람도 분명히 있을 겁니다.

핵심을 정리하면 이렇습니다. Preview 버전은 3월 31일, GA 버전은 7월 22일 — 이 두 날짜를 헷갈리지 않는 것만으로 불필요한 서비스 중단이나 성급한 마이그레이션을 피할 수 있습니다. 그리고 후속 모델이 동일한 비용 수준이라는 기대 없이, 성능 향상에 따른 가격 인상을 미리 계획에 반영하는 게 맞습니다.

3.1 Flash-Lite가 가격 대비 어떤 위치에 있는지는 결국 쓰임새에 따라 다릅니다. 번역·분류·레이블링처럼 정확도가 처리량에 직결되는 작업이라면 단가 이상의 가치가 있고, 단순 텍스트 완성이나 테스트 용도라면 GA 버전을 유지하는 것이 당분간 더 낫습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Gemini API 공식 지원 중단 일정 페이지 (최종 업데이트: 2026-03-11)
  2. Google 공식 블로그 — Gemini 3.1 Flash-Lite 출시 발표 (2026.03.03)
  3. Gemini API 공식 가격 페이지 (2026.03 기준)
  4. Google DeepMind 공식 벤치마크 보고서 — Gemini 3.1 Flash-Lite (2026.03)
  5. Google Developers 블로그 — Gemini 2.5 Flash-Lite 업데이트 발표 (2025.09.25)

⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격과 지원 중단 일정은 구글 공식 페이지에서 반드시 재확인하세요. 본 포스팅의 모든 수치는 공식 문서 및 벤치마크 보고서를 기준으로 작성되었으며, API 버전 또는 서비스 정책 변경에 따라 실제 내용과 다를 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기