Cloudflare AI Gateway 무료, 숫자로 따져보니 달랐습니다

Published on

in

Cloudflare AI Gateway 무료, 숫자로 따져보니 달랐습니다

2026.03.25 기준
Workers Free / Workers Paid 기준

Cloudflare AI Gateway 무료, 숫자로 따져보니 달랐습니다

결론부터 말씀드리면, AI Gateway 자체는 무료가 맞습니다. 그런데 그 무료가 작동하는 조건이 생각보다 훨씬 좁습니다. 하루 요청 10만 건, 월 로그 10만 건이 넘는 순간 서비스가 그냥 멈춥니다. 요금이 청구되는 게 아니라, 그냥 멈춥니다. 이 글은 공식 요금표와 2026년 3월 최신 발표를 함께 놓고 실제로 어떤 시점에서 유료 전환이 불가피해지는지 수치로 따져봤습니다.

100,000
무료 플랜 월 로그 상한
98%
RFC 9457 오류 전환 시 토큰 절감
$5/월~
Workers Paid 전환 최소 비용

AI Gateway가 실제로 하는 일

앱과 AI 모델 사이에 끼어드는 프록시 레이어

Cloudflare AI Gateway는 서비스와 AI 추론 공급자(OpenAI, Anthropic, Google Gemini 등) 사이에서 포워드 프록시처럼 작동합니다. 기존 코드에서 API 엔드포인트 URL 딱 한 줄만 바꾸면 됩니다. OpenAI JS SDK 기준으로는 baseURLhttps://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug}/openai로 교체하는 게 전부입니다.

이걸 설치하면 요청·토큰·비용 집계, 실시간 로그, 캐싱, 레이트 리미팅, 폴백 라우팅이 한 번에 붙습니다. Cloudflare 공식 블로그는 이 구조를 “AI 작업에 대한 제어판”이라고 표현합니다. (출처: Cloudflare 공식 블로그, 2024.05.22)

폴백 라우팅이 실제로 어떻게 작동하는가

범용 엔드포인트 기능을 쓰면 첫 번째 공급자가 실패할 때 자동으로 두 번째 공급자로 넘어갑니다. Workers AI → OpenAI 순으로 폴백하도록 설정해두면, Llama 추론이 실패해도 GPT-4o가 대신 응답합니다. 여기서 중요한 건, 이 폴백 로직 자체도 Workers 실행 시간으로 카운트된다는 점입니다. 무료 플랜에서는 Workers CPU 시간이 월 10만 ms로 제한되기 때문에 복잡한 폴백 체인을 걸면 한도가 생각보다 빨리 닳습니다.

▲ 목차로 돌아가기

무료라는 말이 실제로 의미하는 것

공식 요금표에서 직접 확인한 숫자들

Cloudflare 공식 문서와 요금 페이지에 따르면, AI Gateway의 핵심 기능 자체에는 별도 요금이 없습니다. 하지만 AI Gateway는 Cloudflare Workers 위에서 돌아가기 때문에, Workers 요금 체계를 같이 봐야 실제 한도가 드러납니다. (출처: TrueFoundry, Cloudflare AI Gateway Pricing Explained For 2026)

항목 Workers Free Workers Paid ($5/월~)
AI Gateway 로그 (월) 10만 건 100만 건
일일 요청 수 하루 10만 건 월 1,000만 건 포함
게이트웨이당 최대 저장 1,000만 건 1,000만 건
Logpush (외부 스트리밍) ❌ 미지원 월 1,000만 건 무료, 이후 $0.05/백만 건

💡 공식 발표문과 실제 요금표를 같이 놓고 보니 이런 차이가 보였습니다 — 요금 초과 시 “청구”가 아니라 “정지”입니다. 무료 플랜에서 하루 10만 건을 넘기면 Workers가 그냥 멈추고, 로그 10만 건이 차면 새 로그가 저장되지 않습니다. 예상치 못한 서비스 중단이 발생할 수 있는 구조입니다.

Workers Paid로 넘어가도 숨은 비용이 있습니다

Paid 플랜 기준으로 1,500만 요청을 처리하면 초과분 500만 건에 대해 $0.30/백만 건, 즉 $1.50이 추가됩니다. 월 총 비용은 약 $8 수준. 적어 보이지만, 여기에 OpenAI/Anthropic 등 실제 모델 API 비용이 별도로 붙습니다. AI Gateway는 토큰 비용을 대체하지 않고 그 위에 얹힙니다. (출처: TrueFoundry, Cloudflare AI Gateway Pricing Explained For 2026)

▲ 목차로 돌아가기

로그 10만 건이 왜 생각보다 빨리 차는가

요청 1건 = 로그 1건, 스트리밍도 예외 없습니다

AI Gateway는 요청 하나당 로그를 하나 생성합니다. 사용자 10명이 하루 10번씩 챗봇을 쓰면 하루 100건. 이 속도라면 월 3,000건으로 여유롭습니다. 하지만 RAG 파이프라인이나 멀티스텝 에이전트 워크플로우는 다릅니다. 사용자 요청 1건이 내부적으로 검색 임베딩 호출 → LLM 추론 → 후처리 요청 등 3~10개의 AI 호출을 연쇄적으로 발생시킵니다. 이 경우 사용자 10명이 하루 10번씩 써도 실제 로그는 300~1,000건이 됩니다.

계산식으로 정리하면 이렇습니다:

월 로그 수 = 일일 활성 사용자 × 하루 평균 세션 수 × 세션당 AI 호출 횟수 × 30

예시: 50명 × 5회 × 5호출 × 30일 = 37,500건/월
예시: 200명 × 3회 × 4호출 × 30일 = 72,000건/월
예시: 500명 × 2회 × 5호출 × 30일 = 150,000건/월 → 무료 한도 초과

월 활성 사용자 500명 수준의 서비스에서 멀티스텝 AI를 쓰면 무료 한도가 초과됩니다. 소규모 프로덕션이라도 에이전트 아키텍처를 도입하는 순간 유료 전환이 거의 필연적입니다.

한도 초과 시 로그가 “삭제”되지 않고 “추가 저장이 안 됩니다”

오해하기 쉬운 부분입니다. 기존 로그가 지워지는 게 아니라, 새 로그가 저장되지 않습니다. 한도에 도달한 시점 이후의 요청 내역은 대시보드에서 볼 수 없고, 디버깅도 불가합니다. 공식 문서에서 별도 경고 알림 메커니즘에 대한 설명을 찾을 수 없습니다.

▲ 목차로 돌아가기

2026년 3월에 달라진 것들

AI Security for Apps가 정식 출시됐습니다 (2026.03.11)

2026년 3월 11일, Cloudflare가 AI Security for Apps를 GA(정식 출시)했습니다. 기존 AI Gateway가 “요청을 중계하는 레이어”였다면, AI Security for Apps는 그 위에서 프롬프트 자체를 검사하는 보안 계층입니다. (출처: Cloudflare 공식 블로그, 2026.03.11)

작동 방식은 이렇습니다. 모든 프롬프트가 들어올 때마다 프롬프트 인젝션, 개인정보(PII) 유출 시도, 유해 주제 등 여러 감지 모듈을 통과합니다. 감지 결과는 메타데이터로 첨부되어, 기존 WAF 규칙 엔진에서 차단·로그·사용자 지정 처리로 연결됩니다. OpenAI, Anthropic, Google Gemini, Mistral, Cohere, xAI, DeepSeek의 표준 API 형식을 즉시 지원합니다.

💡 공식 발표문에서 AI Security for Apps의 위치를 살펴보면 — AI Gateway(중계)와 Firewall for AI(보안)가 별개 제품처럼 보이지만, 실제로는 같은 역방향 프록시 위에서 동작합니다. AI Gateway를 켜두면 보안 기능을 추가하는 비용이 구조적으로 낮아집니다. 보안 없이 프로덕션에 올린 팀에게 이건 의미있는 변화입니다.

무료로 풀린 기능 하나 — AI 엔드포인트 검색

AI Security for Apps GA와 함께, AI 엔드포인트 자동 검색 기능이 Free·Pro·Business 요금제 전체에 무료 개방됐습니다. 웹 자산 대시보드(보안 → 웹 자산)에서 cf-llm 레이블로 표시됩니다. 자사 서비스에 AI 엔드포인트가 어디 붙어있는지 파악이 안 된다면, 지금 바로 확인할 수 있습니다. (출처: Cloudflare 공식 블로그, 2026.03.11)

에러 페이지 하나가 토큰 비용을 98% 줄였습니다

2026년 3월 11일 발표된 또 다른 변화입니다. Cloudflare가 AI 에이전트에게 돌려주는 오류 응답 형식을 RFC 9457 표준(구조화된 Markdown/JSON)으로 전환했습니다. 기존의 HTML 오류 페이지는 AI 에이전트가 파싱해야 했는데, 이 과정에서 소비되는 토큰이 상당했습니다. 구조화된 오류 응답으로 전환하자 토큰 사용량이 98% 이상 줄었습니다. (출처: Cloudflare 공식 블로그, 2026.03.11) 에이전트 기반 서비스에서는 오류 처리 비용이 실사용 비용의 적지 않은 비중을 차지합니다.

▲ 목차로 돌아가기

무료 플랜으로 버틸 수 있는 구체적인 조건

이 조건이라면 Workers Free로 충분합니다

막상 따져보면 무료 플랜이 완전히 쓸모없지는 않습니다. 아래 조건을 모두 충족한다면 실제 비용 없이 프로덕션에 쓸 수 있습니다.

  • 월 활성 사용자 100명 미만 + 세션당 AI 호출 3회 이하 (월 로그 약 9,000건 수준)
  • 단순 단일 공급자 연동 (폴백 체인 없음, Workers CPU 소비 최소화)
  • SIEM 연동이나 외부 로그 스트리밍이 불필요한 경우 (Logpush는 Paid 전용)
  • 감사 목적 로그 장기 보관이 없는 경우 (무료 플랜은 보존 정책 설정이 없음)

이 조건 하나라도 해당되면 Paid 전환이 낫습니다

반대로 아래 중 하나라도 해당되면 Workers Paid($5/월)로 올라가는 게 안전합니다. 무료 한도 초과 시 서비스가 조용히 멈추기 때문에, 트래픽이 조금이라도 불규칙하다면 유료 플랜에서 한도를 여유 있게 잡아두는 쪽이 낫습니다.

  • RAG 파이프라인, 멀티스텝 에이전트 등 요청 1건이 내부 다중 호출을 유발하는 구조
  • 월 사용자 200명 이상 또는 사용 패턴이 예측하기 어려운 경우
  • AWS S3, Datadog 등 외부 SIEM으로 로그를 스트리밍해야 하는 경우
  • 컴플라이언스 목적으로 로그를 장기 보관해야 하는 경우

▲ 목차로 돌아가기

데이터 주권 문제, 공식 문서가 숨긴 함정

기본 설정에서 프롬프트 전체가 Cloudflare 인프라에 저장됩니다

AI Gateway를 켜면 기본 설정으로 모든 요청과 응답, 프롬프트 내용, 토큰 수가 Cloudflare 서버에 로그됩니다. 로깅을 꺼버리면 가시성을 잃고, 켜두면 사용자 입력(경우에 따라 PII 포함)이 자사 인프라 밖으로 나갑니다. EU AI Act나 HIPAA 같은 규정 적용을 받는 서비스라면 이 부분을 사전에 확인해야 합니다. Cloudflare가 공식적으로 이 문제를 어떻게 해결할지 별도 가이드라인을 내놓지 않은 부분입니다.

⚠️ 주의: 로깅을 비활성화하면 실시간 로그·분석·캐싱 효율 추적이 모두 제한됩니다. AI Gateway의 핵심 가치가 관찰 가능성에 있다는 점을 감안하면, 로깅을 끈 AI Gateway는 그냥 URL 리다이렉터에 가깝습니다.

라우팅 알고리즘은 블랙박스입니다

폴백 라우팅과 캐싱 적중률을 결정하는 내부 로직은 외부에서 볼 수 없습니다. Cloudflare가 어떤 기준으로 캐시 히트를 판단하는지, 폴백 순서에서 지연이 어떻게 계산되는지, 공식 개발자 문서에서 상세한 알고리즘을 밝히지 않습니다. 엄격한 감사 환경이 필요한 금융·의료 서비스에서는 이 불투명성이 실질적인 운영 리스크가 됩니다. 이런 이유로 일부 팀은 VPC 내부 배포가 가능한 Bifrost(Apache 2.0 오픈소스) 같은 대안으로 이동합니다. Bifrost는 5,000 RPS에서 11마이크로초의 오버헤드로 작동하며 소스코드 전체가 공개됩니다. (출처: Kuldeep Paul, Medium, 2026.03.04)

▲ 목차로 돌아가기

Q&A

Q1. Cloudflare AI Gateway는 정말 완전 무료로 사용할 수 있나요?

핵심 기능 자체는 무료입니다. 하지만 Workers Free 플랜 기준으로 하루 10만 요청, 월 로그 10만 건이 상한입니다. 이 한도를 넘기면 서비스가 추가 요금 없이 그냥 멈춥니다. 소규모 프로토타입이라면 무료로 충분하지만, 멀티스텝 AI를 쓰는 프로덕션은 Workers Paid($5/월~) 전환이 현실적입니다.

Q2. AI Security for Apps는 기존 AI Gateway 사용자라면 자동으로 쓸 수 있나요?

2026년 3월 11일 GA 기준으로, 전체 위협 감지 및 완화 기능은 Enterprise 요금제에서 사용 가능합니다. 단, AI 엔드포인트 검색(Discovery) 기능은 Free·Pro·Business 요금제에서도 무료로 열렸습니다. 대시보드 → 보안 → 웹 자산에서 바로 확인할 수 있습니다.

Q3. AI Gateway를 쓴다고 OpenAI나 Anthropic 비용이 줄어드나요?

동일한 프롬프트가 반복될 때 캐시 히트가 발생하면 모델 API 호출 자체가 줄어서 토큰 비용이 절감됩니다. 단, 캐시 적중 효율은 요청 패턴에 따라 크게 달라집니다. 매번 다른 입력이 들어오는 대화형 챗봇에서는 효과가 제한적이고, 반복 구조가 많은 문서 처리 파이프라인에서 효과가 큽니다. AI Gateway는 모델 토큰 비용을 없애는 게 아니라 중복 호출을 줄이는 방식으로 비용을 낮춥니다.

Q4. 기존에 OpenAI SDK를 쓰고 있다면 코드 수정이 많나요?

최소화되어 있습니다. baseURL 값 하나만 Cloudflare AI Gateway 엔드포인트 URL로 바꾸면 됩니다. 나머지 API 키, 모델명, 메시지 구조는 그대로 유지됩니다. Anthropic, Gemini, Workers AI 등 다른 공급자도 공식 문서에 공급자별 연동 방법이 나와 있습니다. (출처: Cloudflare 개발자 문서, developers.cloudflare.com/ai-gateway/providers/)

Q5. 데이터 주권이 중요한 서비스라면 Cloudflare AI Gateway를 쓰면 안 되나요?

기본 설정에서는 모든 프롬프트와 응답이 Cloudflare 인프라에 저장됩니다. 로깅을 끄면 데이터가 남지 않지만, 관찰 가능성 기능 대부분이 함께 꺼집니다. EU AI Act·HIPAA·금융 규제 등 엄격한 데이터 현지화 요건이 있는 경우, 자사 VPC 내부에 배포되는 오픈소스 게이트웨이(Bifrost 등)가 더 적합할 수 있습니다. Cloudflare AI Gateway가 공식적으로 데이터 현지화 보장 방안을 별도 발표하지 않은 부분입니다.

▲ 목차로 돌아가기

마치며

Cloudflare AI Gateway는 분명히 가장 빠르게 시작할 수 있는 AI 프록시 레이어입니다. 기존 Cloudflare 인프라를 쓰는 팀이라면 진입 비용이 거의 없고, 코드 한 줄로 가시성이 생깁니다. 이건 진짜 강점입니다.

다만 “무료”라는 단어가 실제로 허용하는 범위가 생각보다 좁습니다. 하루 10만 요청, 월 로그 10만 건이라는 숫자는 멀티스텝 에이전트를 쓰는 순간 빠르게 소진됩니다. 그리고 한도 초과 시 조용히 멈추는 구조는 서비스 운영 관점에서 꽤 거슬립니다.

2026년 3월에 AI Security for Apps가 GA로 풀리면서 AI Gateway가 단순 중계기에서 보안 게이트로 성격이 확장됐습니다. RFC 9457 오류 응답 전환으로 에이전트 운영 비용이 크게 줄어든 것도 실용적인 변화입니다. 방향성은 맞습니다.

정리하면, 프로토타입과 소규모 내부 도구에는 Workers Free로 충분합니다. 월 사용자 수백 명 이상이거나 에이전트 워크플로우를 올릴 생각이라면, Workers Paid($5/월)로 시작하고 로그 한도와 Workers CPU 사용량을 주기적으로 확인하는 것이 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Cloudflare 공식 블로그 — AI Gateway GA 발표 (2024.05.22)
  2. Cloudflare 공식 블로그 — AI Security for Apps GA 발표 (2026.03.11)
  3. Cloudflare 개발자 문서 — AI Gateway 공식 문서
  4. TrueFoundry — Cloudflare AI Gateway Pricing Explained For 2026
  5. Kuldeep Paul (Medium) — 5 Best Cloudflare AI Gateway Alternatives in 2026 (2026.03.04)

본 포스팅 작성 이후 Cloudflare AI Gateway의 요금 정책·기능·UI가 변경될 수 있습니다. 요금표 수치는 2026년 3월 25일 기준이며, 최신 정보는 공식 개발자 문서에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기