Gemini 2.0 Flash 종료, 공식 문서로 직접 재봤습니다

2026.06.01 종료 확정
2026.03.23 기준
Gemini API

“어차피 모델명만 바꾸면 되잖아요” — 저도 처음엔 그렇게 생각했습니다.
막상 공식 문서를 뜯어보니, 비용이 달라지는 것보다 더 심각한 문제가 있었습니다.

2026.06.01

API 호출 완전 차단

4개 모델

동시 종료 예정

최소 4배

Lite 계열 비용 차이

종료 대상 4개 모델, 정확히 어떤 건가요?

구글 공식 지원 중단 문서(ai.google.dev/gemini-api/docs/deprecations, 최종 업데이트 2026-03-11)에는 종료 예정 모델이 정확히 네 개입니다.
gemini-2.0-flash,
gemini-2.0-flash-001,
gemini-2.0-flash-lite,
gemini-2.0-flash-lite-001 — 이 네 개가 모두 2026년 6월 1일에 종료됩니다.

한 가지 짚고 넘어가야 할 점이 있습니다. 이미 지난 3월 31일 기준으로 Gemini 2.0 Flash 프리뷰 계열은 별도로 먼저 종료됐습니다. 오늘(2026년 3월 23일) 현재, 프리뷰가 아닌 GA(정식 출시) 모델 4개가 앞으로 70일도 채 남지 않은 6월 1일을 향해 달려가고 있는 겁니다.

💡 공식 문서에 따르면 gemini-2.0-flash와 gemini-2.0-flash-001은 사실상 같은 모델입니다. 구글 권장 교체 모델은 두 경우 모두 gemini-2.5-flash입니다. 모델명에 버전 번호가 없는 alias와 명시적 버전 ID 모두 동시에 사라진다는 점을 코드 전체에서 검색해야 합니다.

모델 ID	종료일	권장 교체 모델
gemini-2.0-flash	2026.06.01	gemini-2.5-flash
gemini-2.0-flash-001	2026.06.01	gemini-2.5-flash
gemini-2.0-flash-lite	2026.06.01	gemini-2.5-flash-lite
gemini-2.0-flash-lite-001	2026.06.01	gemini-2.5-flash-lite

(출처: Gemini API 공식 지원 중단 문서 — ai.google.dev/gemini-api/docs/deprecations, 2026.03.11 기준)

▲ 목차로 돌아가기

비용 계산, 공식 수치로 직접 해봤습니다

많은 글에서 “비용 차이가 거의 없다”고 정리합니다. 그런데 공식 가격 페이지(ai.google.dev/gemini-api/docs/pricing, 2026년 3월 기준)를 열고 직접 계산해보면 이야기가 달라집니다.

Flash 계열: 거의 같거나 오히려 저렴해집니다

gemini-2.0-flash는 공식 문서상 가격이 더 이상 독립 항목으로 표기되지 않습니다(지원 중단 이후 가격 페이지에서 제거됨). 비교 기준으로 보면, gemini-2.5-flash의 현행 가격은 입력 토큰 100만 개당 $0.30, 출력 100만 개당 $2.50입니다. 오디오 입력이 포함된 경우 $1.00으로 올라가지만, 텍스트 전용 작업에서는 교체 비용이 거의 동일하거나 구성에 따라 더 쌉니다.

Flash-Lite 계열: 여기서 차이가 납니다

문제는 Lite 계열입니다. 공식 가격 문서 기준으로,
gemini-2.5-flash-lite의 텍스트 입력 가격은 100만 토큰당 $0.10, 출력은 $0.40입니다. 반면 이전까지 많이 쓰이던 gemini-2.0-flash-lite는 동일 가격 페이지 상 입력 $0.075, 출력 $0.30으로 표기돼 있었습니다.

📊 직접 계산: 월 100억 토큰 처리 시나리오

입출력 비율 3:1 가정 (입력 75억 토큰, 출력 25억 토큰)
• gemini-2.0-flash-lite (구형): (75억 × $0.075 + 25억 × $0.30) ÷ 100만 = $562.50 + $750 = $1,312.50
• gemini-2.5-flash-lite (신형): (75억 × $0.10 + 25억 × $0.40) ÷ 100만 = $750 + $1,000 = $1,750
→ 월 $437.50 상승, 연간 약 $5,250 추가 비용

(출처: Gemini API 공식 가격 페이지 — ai.google.dev/gemini-api/docs/pricing, 2026.03 기준)

비율로 보면 약 33% 인상입니다. 대량 처리 환경에서 “비용 차이가 없다”는 말을 그대로 믿으면 곤란합니다.

▲ 목차로 돌아가기

모델명만 바꿔선 안 되는 진짜 이유

마이그레이션 가이드 대부분은 “코드에서 모델명을 교체하고 테스트하면 끝”이라고 안내합니다. 그런데 Gemini API 공식 커뮤니티(2026년 3월 10일 게시글)에서 실제로 겪은 사례가 나왔습니다.

⚠️ 실제 발생한 중단 사례 (Gemini API 공식 커뮤니티, 2026.03.10)

이미지 콘텐츠 분류·모더레이션 워크플로우에서 gemini-2.0-flash-lite를 gemini-2.5-flash-lite로 교체했을 때, 이미지 배치 처리 중 단 하나의 이미지라도 성인 콘텐츠 관련 분류 요청이 포함되면 배치 전체가 blockReason: OTHER로 차단됩니다. 어떤 이미지가 문제인지 식별조차 불가능하고, 30개 배치 전체 결과가 날아갑니다.

(출처: Gemini API 개발자 커뮤니티 — discuss.ai.google.dev, 2026.03.10)

이건 단순한 프롬프트 응답 구조 차이가 아닙니다. 안전 필터의 작동 방식이 모델 세대마다 다릅니다. 2.5 계열은 2.0 계열보다 콘텐츠 분류 기준이 훨씬 엄격하게 설정돼 있어, 성인 콘텐츠 검수나 의료 이미지 분석, 보안 관련 텍스트 처리 등에 쓰던 워크플로우는 동일하게 작동하지 않을 수 있습니다.

💡 Gemini 3 Pro Preview가 2026년 3월 9일에 종료될 때도 같은 패턴이 반복됐습니다. Firebase Studio에서 경고나 공지 없이 제거됐고, 개발자 4개월 치 코드베이스가 중단되는 상황이 발생했습니다 (Reddit/Firebase, 2026.03.14). Google은 공식적으로 “14일 사전 고지”를 약속했지만, 실제로는 6일 전 공지로 끝난 경우도 있었습니다.

▲ 목차로 돌아가기

Lite 사용자가 놓치는 함정이 따로 있습니다

Lite 계열을 쓰는 이유는 단순합니다. 비용입니다. 그런데 공식 마이그레이션 안내를 그대로 따르면 놓치는 게 생깁니다.

2.5 Flash-Lite의 무료 티어가 사실상 사라졌습니다

Reddit 커뮤니티(r/Bard, 2026년 2월 21일)에 올라온 내용입니다. Gemini API에서 2.5 Flash-Lite 포함 2.5 Pro, 3 Pro 계열은 무료 API 할당량이 존재하지 않는 것으로 보입니다. Gemini 3 Flash Preview에서도 같은 현상이 보고됐습니다(r/Bard, 2025.12.17). 이전에는 일일 수백~수천 건의 무료 요청이 가능했는데, 교체 모델에서 무료 티어가 없다면 개인 프로젝트나 소규모 서비스는 즉시 과금 대상이 됩니다.

2.5 Flash로 올리면 가격은 다시 올라갑니다

위에서 계산했듯, Lite → Lite 전환만 해도 약 33% 비용이 오릅니다. 안전 필터 이슈로 Lite에서 Flash로 올라가야 한다면, 비용은 다시 한번 더 올라갑니다. gemini-2.5-flash의 텍스트 입력 가격은 $0.30으로 Lite($0.10)의 3배입니다. 출력은 $2.50으로 Lite($0.40)의 6배 이상입니다. “Lite를 쓰다가 Flash로 올릴 수밖에 없는 상황”이 되면, 단순 교체가 아니라 예산 재편이 필요합니다.

💡 실제 공식 가격 페이지에 나와있는 수치를 교차 분석하면 이런 그림이 됩니다: Lite → Flash 강제 이동 시 출력 토큰 기준 최대 6배 비용 상승. 애초에 비용 최적화 목적으로 Lite를 선택했던 팀이라면 이 전환 비용이 서비스 전체 수익성에 직접 영향을 줄 수 있습니다.

▲ 목차로 돌아가기

Vertex AI 기존 사용자는 상황이 다릅니다

Google AI Studio와 Gemini API(ai.google.dev)를 통해 쓰는 사람과, Google Cloud의 Vertex AI를 통해 쓰는 사람은 같은 모델이라도 처우가 다릅니다.

Vertex AI 공식 문서(docs.cloud.google.com/vertex-ai, 2026.03.06 기준)에는 이런 내용이 나옵니다: “2026년 3월 6일 기준으로 gemini-2.0-flash-001과 gemini-2.0-flash-lite-001은 기존 고객에게만 제공됩니다.” Vertex AI를 통해 이미 사용 중이라면 6월 1일까지 API가 유지되지만, 신규 고객은 이미 해당 모델 접근이 막혔습니다.

💡 같은 모델 ID라도 어떤 경로로 API를 호출하느냐에 따라 종료 타임라인이 다를 수 있습니다. Vertex AI 경로를 쓰는 팀은 공식 마이그레이션 가이드(docs.cloud.google.com/vertex-ai/generative-ai/docs/migrate)를 Gemini API 문서와 별도로 확인해야 합니다. 두 문서의 권장 교체 모델이 일치하지 않는 경우도 있습니다.

또한 Vertex AI에서 Gemini 3 Pro Preview는 이미 2026년 3월 26일에 제거 예정이었으며(docs.cloud.google.com/vertex-ai/generative-ai/docs/migrate, 실제 공지 기준), Gemini API와 Vertex AI 양쪽에서 관리하던 팀은 각각의 마이그레이션 데드라인이 달랐습니다. 이 부분은 공식 답변이 별도로 나오지 않은 부분이라 실제 운영 중인 팀은 두 채널을 모두 모니터링해야 합니다.

▲ 목차로 돌아가기

지금 당장 해야 할 것 3가지

정리하면 이렇습니다. 6월 1일까지 남은 시간은 70일이 채 안 됩니다. 서두를 필요는 없지만, 미루면 반드시 탈이 납니다.

코드베이스 전체를 “2.0-flash”로 검색하세요

단순 텍스트 검색으로는 환경변수에 숨어있는 모델 ID를 놓칩니다. .env, config.yaml, CI/CD 파이프라인 설정 파일까지 전부 확인해야 합니다. LangChain, LlamaIndex, Dify 같은 프레임워크를 쓴다면 해당 플러그인도 별도로 확인이 필요합니다 (GitHub dify-official-plugins, 2026.01.28 기준 이슈 오픈 상태).

안전 필터에 의존하는 워크플로우는 별도로 테스트하세요

단순 텍스트 생성이 아니라 이미지 분류, 콘텐츠 모더레이션, 의료·법률·보안 관련 텍스트 처리에 Gemini API를 쓰고 있다면, 반드시 신형 모델로 동일한 입력을 넣고 응답 구조가 같은지 확인해야 합니다. 특히 배치 처리 구조는 단일 요청보다 필터에 더 민감하게 반응합니다.

비용 증가분을 미리 시뮬레이션하세요

지난 30일 API 사용량(Google Cloud 콘솔 또는 AI Studio 사용량 탭에서 확인)을 기준으로, 위에서 계산한 공식 단가를 적용해 월 비용을 미리 계산해두세요. Lite → Flash 강제 이동이 필요한 경우 출력 토큰 단가가 최대 6배까지 뛸 수 있다는 점을 예산안에 반영해야 합니다.

▲ 목차로 돌아가기

Q&A

Q. 6월 1일 이후에도 API 호출을 그냥 넣으면 어떻게 되나요?

공식 안내에 따르면 종료 후 gemini-2.0-flash로 API를 호출하면 에러가 반환됩니다. 서비스가 그 시점에 해당 모델을 호출하고 있다면 기능이 중단됩니다. “자동 폴백”은 존재하지 않습니다.

Q. gemini-flash-latest 같은 alias를 쓰고 있는데 괜찮은가요?

Q. 2.5 Flash-Lite의 무료 사용은 완전히 없어진 건가요?

Google이 공식 답변을 명확하게 내놓지 않은 부분입니다. 현재 커뮤니티에서 보고된 바로는 2.5 Flash-Lite에 별도의 무료 API 할당량이 없는 것으로 보이며, AI Studio 내 무료 사용과 API 키를 통한 무료 사용은 다를 수 있습니다. 실제 사용 환경에서 직접 테스트하는 것이 가장 정확합니다.

Q. 2.5 Flash와 2.5 Flash-Lite 중 어걸 선택해야 하나요?

안전 필터에 민감하지 않은 텍스트 생성·요약·번역 중심 워크플로우라면 2.5 Flash-Lite가 경제적입니다. 다만 이미지 분류, 배치 모더레이션처럼 필터 작동에 민감한 경우는 2.5 Flash나 3 Flash 계열을 테스트해보고 결정하는 게 안전합니다.

Q. 2.5 Flash-Lite로 교체했는데 응답 품질이 달라지면 어떻게 하나요?

모델 세대가 바뀌면 같은 프롬프트에 대한 응답 길이, 포맷, 표현 방식이 달라질 수 있습니다. 프로덕션 배포 전에 기존 모델과 신형 모델의 응답을 동일 입력 기준으로 비교하는 A/B 테스트를 먼저 진행하는 것이 권장됩니다. Gemini API 공식 문서에는 별도의 prompt 마이그레이션 가이드 링크(ai.google.dev/gemini-api/docs/migrate)가 있습니다.

▲ 목차로 돌아가기

마치며

6월 1일까지는 아직 시간이 있습니다. 지금 코드베이스를 검색하고, 비용을 계산하고, 실제 워크플로우를 테스트해두면 됩니다. 마감 직전에 몰아치는 것보다, 지금 여유 있게 움직이는 게 훨씬 낫습니다.

본 포스팅 참고 자료

Gemini API 공식 지원 중단 문서 — ai.google.dev/gemini-api/docs/deprecations (2026.03.11 기준)
Gemini API 공식 가격 페이지 — ai.google.dev/gemini-api/docs/pricing
Vertex AI 공식 마이그레이션 가이드 — docs.cloud.google.com/vertex-ai/generative-ai/docs/migrate
Gemini API 개발자 커뮤니티 — Breaking changes migrating from 2.0-flash-lite to 2.5-flash-lite (2026.03.10) — discuss.ai.google.dev
Gemini API Changelog — ai.google.dev/gemini-api/docs/changelog

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 날짜는 2026년 3월 23일 기준이며, Google 공식 문서에서 최신 정보를 직접 확인하시기 바랍니다. 본 포스팅은 정보 제공 목적으로 작성되었으며, 특정 서비스 선택에 대한 공식 권고가 아닙니다.

Gemini 2.0 Flash 종료, 공식 문서로 직접 재봤습니다

종료 대상 4개 모델, 정확히 어떤 건가요?