Gemini API Flex 추론 티어 기준
유료 플랜 전용
Gemini API Flex, 절반 가격인데
이 경우엔 손해입니다
구글이 2026년 4월 2일 Flex와 Priority, 두 개의 새로운 추론 티어를 Gemini API에 추가했습니다. Flex는 스탠다드 대비 50% 할인이라는 숫자가 눈에 띄지만, 공식 문서를 그대로 읽어보면 “싸다”는 말이 전부가 아님을 바로 알 수 있습니다.
Flex 추론 티어가 뭔가요 — 한 줄 정리
Gemini API에는 이제 Standard, Flex, Priority, Batch 총 네 가지 추론 방식이 존재합니다. 이 중 Flex는 응답을 바로 받지 않아도 되는 작업에서 비용을 절반으로 줄이는 동기식 티어입니다. (출처: Google AI for Developers 공식 문서, 2026.04.01 업데이트)
핵심은 “동기식”이라는 점입니다. 기존에 비용을 아끼려면 Batch API를 써야 했는데, Batch는 비동기 방식이라 파일을 올리고 Job ID로 폴링해서 결과를 받는 과정이 필요했습니다. Flex는 파라미터 하나만 바꾸면 같은 엔드포인트에서 그대로 호출할 수 있습니다. 구조 변경 없이 50% 할인이 가능하다는 게 포인트입니다.
다만 그 대가가 있습니다. Flex는 구글 서버의 유휴 컴퓨팅 자원을 사용하는 방식이라 응답 시간이 최대 115분까지 길어질 수 있고, 서버에 트래픽이 몰리면 요청 자체가 밀려납니다. 이 부분이 Flex를 선택할 때 반드시 짚고 넘어가야 할 지점입니다.
💡 공식 발표문과 실제 문서의 제약 조건을 같이 놓고 보니, Flex의 장점이 에이전트 파이프라인 설계 방식 자체를 바꿀 수 있다는 점이 보였습니다. 이 부분은 섹션 5에서 구체적으로 다룹니다.
스탠다드·Flex·Batch·Priority 요금 직접 비교
같은 모델을 쓸 때 어느 티어를 선택하느냐에 따라 요금이 최대 4배까지 벌어집니다. 아래 표는 Gemini 3.1 Pro Preview 기준으로 네 티어를 직접 비교한 수치입니다. (출처: Google AI 공식 가격 문서 ai.google.dev/gemini-api/docs/pricing, 2026.04.01)
| 티어 | 입력 (1M 토큰) | 출력 (1M 토큰) | 지연시간 | 인터페이스 |
|---|---|---|---|---|
| Standard | $2.00 | $12.00 | 초~분 | 동기식 |
| Flex ★ | $1.00 | $6.00 | 최대 115분 | 동기식 |
| Batch | $1.00 | $6.00 | 최대 24시간 | 비동기식 |
| Priority | $3.60 | $21.60 | 밀리초~초 | 동기식 |
요금만 보면 Flex와 Batch가 동일합니다. 그런데 둘은 구조가 완전히 다릅니다. Batch는 파일을 올리고 최대 24시간 기다려야 결과를 받을 수 있는 비동기 방식인 반면, Flex는 같은 엔드포인트에서 service_tier: "flex" 파라미터 하나로 동기 요청을 그대로 보낼 수 있습니다. 여러 API 호출이 순서대로 이어지는 에이전트 워크플로라면, Batch의 비동기 구조 대신 Flex가 훨씬 설계가 단순합니다.
💡 비용은 Batch와 같은데 구조는 훨씬 단순합니다. 이 차이가 에이전트 파이프라인에서 어떻게 작동하는지, 기존 블로그에서는 잘 다루지 않는 부분입니다.
50% 싸다고 무조건 Flex가 이득일까요
결론부터 말씀드리면, 50% 절감액이 실제로 의미 있으려면 월 지출이 수백 달러 이상인 워크로드여야 합니다. 예를 들어 Gemini 2.5 Pro로 매달 입력 토큰 10억 개, 출력 토큰 2억 개를 쓰는 경우를 계산하면:
📊 Gemini 2.5 Pro 기준 월 비용 비교 (입력 10억 토큰 + 출력 2억 토큰)
• Standard: (1,000 × $1.25) + (200 × $10.00) = $1,250 + $2,000 = $3,250
• Flex: (1,000 × $0.625) + (200 × $5.00) = $625 + $1,000 = $1,625
→ 월 $1,625 절감, 연간 약 $19,500 차이
금액 차이가 이 정도 규모여야 Flex의 복잡성(재시도 로직, 타임아웃 설정)을 감수할 만합니다. 소규모 프로젝트에서 한 달 API 비용이 $20 수준이라면 절감액은 $10이고, 에러 처리 코드 작성에 드는 개발 시간이 훨씬 비쌉니다.
또 하나 주목해야 할 점이 있습니다. 구글은 2026년 4월 1일부터 무료 티어에서 Gemini 3.x Pro 시리즈를 완전히 제거했습니다. (출처: Google AI 공식 문서, 2026.04.01) Gemini 2.5 Pro는 무료 티어에 남아 있지만 분당 5회로 제한됩니다. Flex는 유료 플랜 전용으로, 무료 티어에서는 아예 사용이 불가합니다. 무료로 Flex를 쓸 수 있다는 오해는 공식 문서를 보면 바로 걸러집니다.
Flex가 실제로 손해가 되는 3가지 상황
공식 문서(ai.google.dev/gemini-api/docs/flex-inference, 2026.04.01)에는 Flex의 제약 조건이 매우 구체적으로 명시돼 있습니다. 이 세 가지 상황 중 하나라도 해당되면 Flex는 비용 절감이 아니라 서비스 불안정으로 이어질 수 있습니다.
사용자가 실시간으로 기다리는 서비스
챗봇, 코파일럿, 실시간 추천 시스템처럼 사용자가 응답을 즉시 확인하는 서비스에는 Flex를 써선 안 됩니다. 응답이 115분 지연될 수 있고, 서버 용량 초과 시 503 에러를 반환합니다. 이 경우 Standard 또는 Priority를 써야 합니다.
재시도 로직 없이 Flex를 호출하는 경우
공식 문서에 명확히 나와 있습니다. “서버 측 자동 업그레이드 없음(No server-side fallback)” — Flex 용량이 가득 찼을 때 구글은 요청을 Standard로 자동 전환하지 않습니다. 비용 예측 불가 상황을 막기 위한 설계인데, 역으로 요청이 그냥 실패합니다. 클라이언트에서 지수 백오프 재시도 로직을 직접 구현해야 합니다.
기본 타임아웃 설정 그대로 사용하는 경우
일반적인 HTTP 클라이언트의 기본 타임아웃은 30~60초인데, Flex 요청은 큐에서 대기하다가 이 시간을 훌쩍 넘길 수 있습니다. 공식 문서에서는 클라이언트 타임아웃을 최소 10분(600초) 이상으로 설정하도록 권고합니다. 이 설정 없이 쓰면 타임아웃 에러가 연속으로 발생하면서 실질적인 요금 절감 없이 장애만 남습니다.
💡 “서버 측 자동 폴백 없음”은 일반적으로 안전장치로 보이는 구조가 오히려 의도된 제약임을 보여줍니다. 예상치 못한 비용 청구를 막기 위해 구글이 이 구조를 선택했다는 점에서, Flex는 비용 통제를 개발자에게 온전히 맡기는 구조입니다.
Flex를 제대로 쓰려면 코드에 뭘 더해야 하나요
Flex를 그냥 파라미터 하나만 바꿔서 쓰다가 503 에러를 만나면 당황스럽습니다. 공식 문서가 권고하는 최소 설정 두 가지를 정리했습니다.
① 타임아웃 600초 이상 설정
Python SDK 기준으로 http_options: {"timeout": 900000}처럼 밀리초 단위로 설정합니다. 900,000ms = 15분입니다. 큐 대기가 길어질 수 있어서 공식 문서는 600초를 최솟값으로 권고하고 있습니다. (출처: ai.google.dev/gemini-api/docs/flex-inference, 2026.04.01)
② 지수 백오프 재시도 로직
503이나 429 에러를 받았을 때 즉시 재시도하면 더 빠르게 막힙니다. 5초→10초→20초처럼 간격을 두 배씩 늘리는 지수 백오프 방식이 공식 권고 패턴입니다. 재시도를 전부 소진했을 때 Standard 티어로 폴백하는 로직을 추가로 넣으면 서비스 연속성을 지킬 수 있습니다.
💡 Flex는 단순히 파라미터 하나만 바꾸는 구조지만, 실제로 안정적으로 운영하려면 타임아웃·재시도·폴백을 모두 구현해야 합니다. 이 세 가지가 없으면 “50% 절감”이 아니라 “50% 에러율”이 될 수 있습니다.
Flex가 진짜 빛을 발하는 시나리오
공식 문서에서 제시하는 이상적인 Flex 활용 사례는 CRM 데이터 보강, 대규모 연구 시뮬레이션, 백그라운드 에이전트 워크플로입니다. 이 중 에이전트 워크플로가 특히 주목할 만합니다. 모델이 “브라우징”하거나 “리즈닝”하는 중간 단계처럼 이전 출력이 다음 입력에 연결되는 순차적 API 체인에서는, Batch의 비동기 구조보다 Flex의 동기 구조가 훨씬 설계하기 쉽습니다. 비용은 Batch와 같고 코드는 Standard와 같습니다.
무료 티어 사용자가 놓치기 쉬운 변화
Flex·Priority 티어 발표와 함께, 구글은 2026년 4월 1일부터 무료 티어를 대폭 축소했습니다. 이 부분을 모르고 있다가 갑자기 API 호출이 막히는 경우가 실제로 발생하고 있습니다.
| 모델 | 무료 티어 (4월 이전) | 무료 티어 (4월 이후) |
|---|---|---|
| Gemini 2.5 Pro | 이용 가능 (제한적) | 5 RPM · 100회/일 |
| Gemini 2.5 Flash | 이용 가능 | 10 RPM · 250회/일 |
| Gemini 3.1 Pro | 일부 프리뷰 제공 | 유료 전용 (제거) |
| Gemini 3 Flash | 일부 프리뷰 제공 | 유료 전용 (제거) |
한 가지 더 — 2020년에 출시된 Gemini 2.0 Flash와 2.0 Flash-Lite는 2026년 6월 1일부로 폐지됩니다. 아직 이 모델로 운영 중인 프로젝트가 있다면 지금 바로 2.5 Flash나 3 Flash로 마이그레이션 계획을 세워야 합니다. (출처: Google AI 공식 가격 문서, 2026.04.01)
또한 유료 전환 이후에도 월 지출 한도(Tier 1: $250/월, Tier 2: $2,000/월)가 강제 적용됩니다. 한도에 도달하면 API 호출이 자동으로 일시 중단됩니다. 빠르게 성장하는 서비스라면 티어 업그레이드 시점을 미리 파악해둬야 갑작스러운 서비스 중단을 막을 수 있습니다.
자주 묻는 질문
Q1. Flex와 Batch 요금이 같다면 Batch를 쓸 이유가 없는 건가요?
케이스에 따라 다릅니다. 결과를 다음 날 받아도 괜찮은 대량 배치 작업(예: 수천 건의 문서 분류)이라면 Batch가 더 안정적입니다. Batch는 한번 제출하면 24시간 안에 결과를 보장하고 rate limit 걱정이 없습니다. 반면 Flex는 순차적으로 이어지는 API 체인에서 동기 방식이 필요할 때, 즉 이전 응답이 다음 요청의 입력으로 들어가야 하는 에이전트 구조에서 유리합니다.
Q2. Priority 티어는 언제 쓰는 게 맞나요?
실시간 고객 지원 봇, 라이브 콘텐츠 모더레이션처럼 피크 타임에도 반드시 응답해야 하는 서비스에 적합합니다. Priority는 스탠다드보다 75~100% 비쌉니다. 다만 Priority 한도를 넘는 트래픽은 실패 대신 자동으로 Standard 티어로 내려가는 “Graceful Downgrade” 구조가 적용됩니다. 이 폴백 구조가 있다는 점에서 Flex와 정반대입니다.
Q3. Flex 사용 시 rate limit은 따로 늘어나나요?
아닙니다. Flex 트래픽은 기존 계정의 일반 rate limit을 공유합니다. Batch API처럼 별도의 확장 rate limit이 제공되지는 않습니다. 따라서 대량 Flex 요청을 날리다 429 에러를 만날 수 있고, 이 경우도 재시도 로직이 필요합니다. (출처: ai.google.dev/gemini-api/docs/flex-inference)
Q4. Flex는 모든 Gemini 모델에서 지원되나요?
아닙니다. 공식 문서 기준(2026.04.01)으로 Flex를 지원하는 모델은 Gemini 3.1 Pro Preview, Gemini 3 Flash Preview, Gemini 3 Pro Image Preview, Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.5 Flash Image, Gemini 2.5 Flash-Lite, Gemini 3.1 Flash-Lite Preview입니다. 모델 목록은 업데이트될 수 있으니 호출 전 공식 문서에서 지원 여부를 확인해야 합니다.
Q5. 503 에러가 자주 발생하면 Flex를 포기해야 하나요?
꼭 그렇지는 않습니다. 503은 서버 용량 초과를 뜻하고 특정 시간대(피크 트래픽)에 집중적으로 발생합니다. 재시도 로직을 구현해서 지수 백오프로 재시도하거나, 업무 시간 외 시간대로 요청을 몰아서 보내는 전략이 효과적입니다. 그래도 지속적으로 503이 발생한다면 Standard 티어로의 폴백을 재시도 마지막 단계에 넣는 것이 현실적입니다.
마치며
Gemini API Flex는 분명히 매력적인 선택지입니다. 코드 변경은 파라미터 하나, 비용 절감은 50%, 구조는 Batch보다 훨씬 단순합니다. 특히 에이전트 워크플로나 백그라운드 데이터 처리처럼 지연이 허용되는 대규모 작업에서는 실질적인 연간 수천 달러 절감이 가능합니다.
Genspark Claw
기간 한정 혜택
대화

댓글 남기기