Gemini API Flex 인퍼런스, 배치와 같은 값인데 이게 다릅니다

Published on

in

Gemini API Flex 인퍼런스, 배치와 같은 값인데 이게 다릅니다

📅 2026.04.02 기준
Gemini API 기준
2026.04.01 출시

Gemini API Flex 인퍼런스, 절반 가격인데 배치보다 유리한 조건 있습니다

어제(2026년 4월 1일) 구글이 Gemini API에 Flex와 Priority, 두 개의 새로운 인퍼런스 티어를 조용히 출시했습니다. 기존엔 Standard(풀 가격)와 Batch(50% 할인·비동기·24시간 처리) 두 가지 선택지뿐이었는데, 이번에 그 사이 빈 공간을 채운 겁니다.

50%
Flex 티어 할인율
1~15분
Flex 목표 레이턴시
75~100%
Priority 추가 비용

지금까지 Gemini API 티어가 2개뿐이었던 이유

솔직히 말하면, Gemini API의 기존 구조는 단순했습니다. Standard(초당 응답·풀 가격)냐 Batch(24시간 내 비동기·50% 할인)냐, 딱 두 가지였습니다. 문제는 그 사이 공간이 너무 컸다는 겁니다.

AI 에이전트처럼 순차적으로 API를 호출해야 하는 워크로드가 늘어나면서, “당장 초단위 응답이 필요한 건 아닌데, 그렇다고 결과를 기다리며 다음 작업을 못 하는 Batch 방식은 곤란하다”는 수요가 생겼습니다. Batch는 비동기라서 한 번에 몰아넣고 나중에 가져가는 구조인데, 이전 요청 결과를 바탕으로 다음 요청을 만들어야 하는 경우엔 맞지 않습니다.

구글이 2026년 4월 1일 공식 발표한 Flex와 Priority 티어는 이 공백을 정확히 겨냥합니다. (출처: Gemini API Release Notes, 2026.04.01)

▲ 목차로 돌아가기

Flex 티어: 배치와 가격이 같은데 쓰는 방법이 다릅니다

Flex의 핵심 포인트는 배치와 같은 50% 할인 가격이면서 동기(Synchronous) 방식으로 작동한다는 겁니다. 코드 한 줄만 바꾸면 됩니다. 기존 generateContent 요청에 service_tier: "flex" 파라미터를 추가하는 게 전부입니다. (출처: Gemini API Flex inference 공식 문서, ai.google.dev, 2026.04.01)

💡 공식 문서와 기존 배치 API 구조를 같이 놓고 보니 이런 차이가 보였습니다. Flex는 배치처럼 ‘작업을 제출하고 나중에 결과를 가져오는’ 흐름이 아닙니다. 응답이 올 때까지 연결을 유지하면서 기다립니다. AI 에이전트가 이전 단계 결과를 받아야 다음 프롬프트를 만들 수 있는 구조라면, Flex가 Batch보다 실질적으로 더 편합니다.

다만 트레이드오프가 있습니다. Flex는 구글 서버의 남는 컴퓨팅 용량(off-peak “sheddable” capacity)을 활용하는 방식이라, 표준 트래픽이 급증하면 Flex 요청이 먼저 밀립니다. 공식 목표 레이턴시는 1~15분이고, 대기열에 쌓일 수 있어서 클라이언트 쪽 타임아웃을 최소 10분(600초) 이상으로 늘려야 합니다. (출처: Gemini API Flex inference 공식 문서, ai.google.dev, 2026.04.01)

503 오류가 뜰 때 서버가 자동으로 Standard 티어로 올려주지 않습니다. 공식 문서에 “No server-side fallback”이라고 명시돼 있습니다. 클라이언트 코드에 지수 백오프(exponential backoff) 재시도 로직을 직접 넣어야 합니다.

▲ 목차로 돌아가기

공식 가격표로 직접 계산해봤습니다

아래는 Gemini API 공식 가격 페이지(ai.google.dev/gemini-api/docs/pricing, 2026.04.02 기준)에서 발췌한 수치입니다. 200k 토큰 이하 프롬프트 기준으로 4개 티어를 비교했습니다.

▸ Gemini 3 Flash Preview 기준 (200k 이하 프롬프트)

티어 입력 (1M 토큰) 출력 (1M 토큰) 레이턴시 방식
Priority $3.60 $21.60 초 단위 동기
Standard $2.00 $12.00 초~분 동기
Flex ✨ $1.00 $6.00 1~15분 동기
Batch $1.00 $6.00 최대 24시간 비동기

출처: Google AI for Developers 공식 가격 페이지 (https://ai.google.dev/gemini-api/docs/pricing), 2026.04.02 기준

수치를 보면 Flex와 Batch 가격이 완전히 동일합니다. 차이는 딱 하나, 동기냐 비동기냐입니다. 표준 API 대비 비용 절감 효과를 계산하면 이렇습니다.

💡 직접 따라할 수 있는 계산식

Gemini 3 Flash Preview 기준, 입력 100만 토큰 + 출력 100만 토큰 처리 시:

• Standard: $2.00 + $12.00 = $14.00

• Flex/Batch: $1.00 + $6.00 = $7.00

동일 작업을 Flex로 처리하면 비용이 정확히 절반

월 100억 토큰 규모로 LLM-as-a-judge 평가를 돌리는 팀이라면 Flex 전환만으로 비용을 $140,000 → $70,000으로 줄일 수 있습니다. 단, 처리 시간이 최대 15분까지 늘어나는 걸 감수해야 합니다.

▲ 목차로 돌아가기

Priority 티어: 빠르다고 믿으면 놓치는 함정이 있습니다

Priority 티어는 Standard보다 75~100% 더 비쌉니다. Gemini 3 Flash Preview 기준으로 입력 100만 토큰이 $2.00 → $3.60, 출력은 $12.00 → $21.60으로 올라갑니다. (출처: Gemini API 공식 가격 페이지, ai.google.dev/gemini-api/docs/pricing, 2026.04.02)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. Priority 티어는 요청 실패율을 낮추는 게 아니라 ‘실패 대신 자동 다운그레이드’가 핵심 메커니즘입니다. Priority 한도를 초과하면 해당 요청이 자동으로 Standard 티어로 처리되고, 비용도 Standard 요금으로 청구됩니다. 즉 Priority 요금을 냈는데 실제론 Standard 처리를 받을 수 있습니다.

공식 문서에 따르면 Priority 티어의 기본 레이트 리밋은 Standard의 0.3배입니다. (출처: Gemini API Priority inference 공식 문서, ai.google.dev/gemini-api/docs/priority-inference, 2026.04.01) 이게 의미하는 건 — 트래픽이 몰리는 순간 Priority 풀이 표준보다 훨씬 빨리 차고, 그 이후 요청들은 곧장 Standard로 밀린다는 겁니다.

다운그레이드된 요청은 응답 헤더 x-gemini-service-tier 값으로 확인할 수 있습니다. 이 헤더가 “standard”로 찍힌다면 Priority 요금이 아닌 Standard 요금으로 청구됩니다. 비용 모니터링을 안 해두면 원인 파악이 어렵습니다.

▲ 목차로 돌아가기

4개 티어 한 줄 비교 — 언제 어느 걸 써야 하나

각 티어가 잘 맞는 상황을 공식 문서 기반으로 정리했습니다. 겹치는 것처럼 보이는 Flex와 Batch의 경계를 특히 주목할 필요가 있습니다.

티어 이럴 때 쓰세요 이럴 때는 안 맞아요
Priority 사용자 응답 대기 챗봇, 실시간 판단 엔진, SLO 보장 필요한 유료 기능 비용 절감이 목표인 경우, 트래픽 스파이크가 잦은 경우
Standard 일반 API 호출, 균형잡힌 레이턴시/비용 필요 시 비용 최적화가 최우선인 백그라운드 작업
Flex ✨ AI 에이전트 순차 체인, CRM 업데이트, 콘텐츠 분류, 오프라인 평가 (결과가 다음 요청에 필요한 경우) 사용자가 직접 기다리는 인터랙티브 작업, 분 단위 레이턴시를 허용 못 하는 경우
Batch 수만 건 이상 대량 처리, 순서 무관 병렬 작업, 결과를 한꺼번에 받아도 되는 경우 다음 요청이 이전 결과에 의존하는 순차 체인 워크플로

💡 Flex와 Batch의 가격이 동일하기 때문에, 순차 체인이 필요한 워크로드에서 “어차피 Batch도 싸니까”라고 Batch를 택하면 실제 코드 구현이 더 복잡해집니다. Batch는 작업 ID 생성·상태 폴링·결과 파일 다운로드라는 3단계 흐름이 필요한 반면, Flex는 기존 generateContent 호출에 파라미터 하나만 추가하면 됩니다.

▲ 목차로 돌아가기

공식 문서에서 직접 확인한 사용 시 주의점

① Flex 사용 시 타임아웃 설정은 필수

Flex 요청은 대기열에 최대 수분간 머물 수 있습니다. 기본 HTTP 클라이언트 타임아웃(보통 30~60초)을 그대로 쓰면 연결이 끊깁니다. 공식 문서는 클라이언트 타임아웃을 900초(15분) 이상으로 설정하도록 권장합니다. Python SDK 기준으로는 http_options: {"timeout": 900000}(밀리초 단위)으로 설정합니다. (출처: Gemini API Flex inference 공식 문서, ai.google.dev, 2026.04.01)

② Flex와 Priority 모두 Paid 티어 전용

공식 가격 페이지에 Free Tier 칸이 “Not available”로 표시돼 있습니다. 무료 API 키로는 Flex나 Priority 파라미터를 넣어도 적용되지 않고, 오류가 발생할 수 있습니다. AI Studio에서 결제 계정을 연결해야 사용할 수 있습니다. (출처: Gemini API 공식 가격 페이지, ai.google.dev/gemini-api/docs/pricing, 2026.04.02)

③ 지원 모델 확인 후 적용

Flex와 Priority 모두 현재 Gemini 3.1 Flash-Lite Preview, Gemini 3.1 Pro Preview, Gemini 3 Flash Preview, Gemini 3 Pro Image Preview, Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.5 Flash Image, Gemini 2.5 Flash-Lite에서만 지원합니다. Live API 모델이나 임베딩 모델에는 아직 적용되지 않습니다. (출처: Gemini API Flex/Priority inference 공식 문서, 2026.04.01)

④ Flex에서 503 오류 발생 시 자동 폴백 없음

공식 문서에 “To prevent unexpected charges, the system won’t automatically upgrade a Flex request to the Standard tier if Flex capacity is full”이라고 직접 나옵니다. 예상치 못한 비용 청구를 막기 위한 설계입니다. 재시도 로직을 직접 구현해야 하며, 지수 백오프 방식으로 base_delay=5초부터 시작하는 예시 코드가 공식 문서에 포함돼 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. Flex 티어는 무료 API 키로도 쓸 수 있나요?

아닙니다. Flex와 Priority 모두 Paid 티어 전용입니다. 공식 가격 페이지에 Free Tier 열이 “Not available”로 표시돼 있습니다. AI Studio에서 결제 계정을 연결한 후 사용해야 합니다.

Q2. Flex와 Batch 가격이 같다면 Batch를 쓸 이유가 없는 건가요?

순서가 없는 대량 병렬 처리라면 Batch가 여전히 유리합니다. Batch는 수만 건을 한꺼번에 제출하고 24시간 내에 결과를 받는 구조로, 레이트 리밋 측면에서도 더 여유롭습니다. 반면 Flex는 한 요청씩 순차적으로 처리해야 하는 에이전트 체인에 맞습니다. “이전 결과가 있어야 다음 요청을 만들 수 있다”면 Flex, “한꺼번에 넣고 나중에 받아도 된다”면 Batch가 더 적합합니다.

Q3. Priority 티어 한도를 초과하면 요청이 실패하나요?

실패하지 않습니다. 대신 자동으로 Standard 티어로 다운그레이드돼 처리됩니다. 이때 비용은 Priority 요금이 아닌 Standard 요금으로 청구됩니다. 응답 헤더 x-gemini-service-tier 값을 모니터링하면 다운그레이드 여부를 확인할 수 있습니다.

Q4. Flex에서 503 오류가 자꾸 나는데, 자동으로 Standard로 전환되지 않나요?

Flex는 의도적으로 자동 폴백이 없습니다. 예상치 못한 Standard 요금 청구를 막기 위한 설계입니다. 재시도가 필요하다면 클라이언트 코드에 지수 백오프 로직을 직접 구현해야 합니다. 공식 문서에 Python/JavaScript/Go 재시도 예시 코드가 포함돼 있습니다.

Q5. Gemini 2.5 Pro에서도 Flex와 Priority를 쓸 수 있나요?

네, 지원됩니다. Gemini 2.5 Pro Flex 티어 가격은 200k 이하 기준 입력 $0.625/1M, 출력 $5.00/1M이고, Priority 티어는 입력 $2.25/1M, 출력 $18.00/1M입니다. Live API 모델과 임베딩 모델에는 아직 적용되지 않습니다.

▲ 목차로 돌아가기

마치며 — 어느 티어가 내 상황에 맞는가

이번에 추가된 두 티어를 한 줄로 정리하면 이렇습니다. Flex는 “배치 가격으로, 동기 방식으로, 분 단위 레이턴시를 감수하는 백그라운드 에이전트”. Priority는 “Standard보다 빠르지만, 한도를 넘으면 Standard로 처리되는 안전망 티어”.

써보니까 가장 활용하기 좋은 케이스는 Flex입니다. AI 에이전트 순차 체인, LLM-as-a-judge 테스트, CRM 자동화처럼 “사람이 기다리지 않는 백그라운드 작업 + 이전 결과가 다음 요청에 필요한 구조”라면 Batch보다 코드 구현이 단순하면서 가격은 같습니다. 기존 generateContent 코드에 파라미터 하나만 추가하면 되니까 진입 장벽도 낮습니다.

Priority는 실제로 써보기 전에 레이트 리밋이 Standard의 0.3배라는 점과 한도 초과 시 자동 다운그레이드되는 메커니즘을 먼저 이해하는 게 좋습니다. 비용 모니터링 없이 쓰면 Priority 요금을 냈는데 Standard 처리를 받고 있는 상황을 뒤늦게 발견할 수 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Gemini API Flex inference 공식 문서 — ai.google.dev/gemini-api/docs/flex-inference (2026.04.01 업데이트)
  2. Gemini API Priority inference 공식 문서 — ai.google.dev/gemini-api/docs/priority-inference (2026.04.01 업데이트)
  3. Gemini API 공식 가격 페이지 — ai.google.dev/gemini-api/docs/pricing (2026.04.02 기준)
  4. Gemini API Release Notes — ai.google.dev/gemini-api/docs/changelog

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API는 빠른 속도로 업데이트되므로, 실제 적용 전에 공식 문서를 반드시 확인하세요. 본문 내 가격·스펙은 2026년 4월 2일 기준 공식 자료에 근거합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기