Your AI bill is out of control. Cloudflare can fix it now.

🖼️ 인포그래픽

Your AI bill is out of control. Cloudflare can fix it now. 내용을 설명하는 본문 이미지

🖼️ 4컷 인포그래픽

💡 한 줄 요약

Cloudflare는 AI Gateway에 달러 기준 지출 한도, 실시간 비용 추적, 신원 기반 예산·정책을 추가해 기업이 통제 불가능해진 AI 비용을 사용자·팀·모델 단위로 파악하고 제한할 수 있게 한다고 발표했다.

📌 핵심 요약

기업들은 뒤처질 것을 우려해 직원들에게 AI 사용을 적극 장려했지만, 공유 API 키와 부족한 가시성 때문에 누가 어떤 모델로 얼마나 비용을 썼는지 설명하기 어려운 상황에 직면했다.
Cloudflare AI Gateway는 애플리케이션과 OpenAI, Anthropic, Google 등 AI 제공업체 사이에 위치해 통합 과금, 제공업체 전반의 로깅, PII와 비밀정보 차단 같은 기능을 제공해 왔다.
이번 발표의 핵심은 AI Gateway에 토큰 수가 아니라 달러 기준의 지출 한도를 설정하고, 모델·제공업체·사용자·팀·애플리케이션 같은 속성별로 누적 비용을 실시간 추적하는 기능이다.
지출 한도에 도달하면 기본적으로 요청을 차단할 수 있고, Dynamic Routes를 통해 더 저렴한 대체 모델로 라우팅해 업무 흐름을 완전히 중단하지 않는 방식도 선택할 수 있다.
Cloudflare는 Cloudflare Access와 기존 ID 제공업체를 결합한 신원 기반 예산·정책을 비공개 베타로 제공하며, 향후 요청별 작업 성격에 따라 최적의 저비용 모델을 자동 선택하는 지능형 라우팅도 개발 중이라고 밝혔다.

🧩 주요 포인트

기업들은 뒤처질 것을 우려해 직원들에게 AI 사용을 적극 장려했지만, 공유 API 키와 부족한 가시성 때문에 누가 어떤 모델로 얼마나 비용을 썼는지 설명하기 어려운 상황에 직면했다.
Cloudflare AI Gateway는 애플리케이션과 OpenAI, Anthropic, Google 등 AI 제공업체 사이에 위치해 통합 과금, 제공업체 전반의 로깅, PII와 비밀정보 차단 같은 기능을 제공해 왔다.
이번 발표의 핵심은 AI Gateway에 토큰 수가 아니라 달러 기준의 지출 한도를 설정하고, 모델·제공업체·사용자·팀·애플리케이션 같은 속성별로 누적 비용을 실시간 추적하는 기능이다.
지출 한도에 도달하면 기본적으로 요청을 차단할 수 있고, Dynamic Routes를 통해 더 저렴한 대체 모델로 라우팅해 업무 흐름을 완전히 중단하지 않는 방식도 선택할 수 있다.
Cloudflare는 Cloudflare Access와 기존 ID 제공업체를 결합한 신원 기반 예산·정책을 비공개 베타로 제공하며, 향후 요청별 작업 성격에 따라 최적의 저비용 모델을 자동 선택하는 지능형 라우팅도 개발 중이라고 밝혔다.

🧠 상세 정리

1. AI 비용 증가와 기업의 가시성 문제

글은 현재 CIO와 CFO가 AI 지출을 크게 우려하고 있다는 문제의식에서 출발한다. 많은 기업은 경쟁에서 뒤처지지 않기 위해 직원들에게 AI를 최대한 적극적으로 쓰라고 독려했고, 비용은 나중에 정리하자는 방식으로 움직였다. 이 접근은 실제로 AI를 적극 도입한 팀에 변화를 가져왔지만, 동시에 토큰 사용량 초과와 대규모 청구서라는 현실적 부담을 만들었다. 특히 공유 API 키로 프런티어 모델을 열어두면 월말에 비용이 폭증해도 그 원인이 특정 팀인지, 인턴의 사용인지, 폭주한 CI 작업인지 알기 어렵다. 글은 AI 지출도 다른 비즈니스 비용처럼 예산, 귀속, 통제가 필요하다고 강조한다.

2. 강력한 모델을 기본값으로 쓰게 되는 구조

저자는 명확한 가이드라인과 예산, 라우팅 로직이 없으면 직원들이 자연스럽게 가장 강력하고 비싼 모델을 선택한다고 설명한다. 사용자 입장에서는 비용 책임이나 사용량 가시성이 없을 때 가장 성능 좋은 모델을 쓰는 것이 합리적 선택이기 때문이다. 그러나 원문은 대부분의 작업이 반드시 프런티어 모델을 필요로 하지는 않는다고 지적한다. 예를 들어 코드 리뷰 요약, 로그 파싱, 고객-facing 콘텐츠 생성, 복잡한 아키텍처 리팩터링은 요구되는 모델 수준이 서로 다르다. 따라서 문제는 AI 사용 자체가 아니라, 작업에 맞는 모델을 쉽게 선택하고 비용 흐름을 확인할 수 있는 체계의 부재다.

3. AI Gateway의 기존 역할과 한계

Cloudflare AI Gateway는 애플리케이션과 AI 제공업체 사이에 위치해 요청이 OpenAI, Anthropic, Google 또는 다른 제공업체로 직접 가기 전에 먼저 통과하는 계층으로 설명된다. 이를 통해 여러 제공업체와 모델을 쉽게 전환할 수 있는 통합 과금, 모든 요청과 토큰 수와 비용을 한곳에서 보는 로깅, 모델에 도달하기 전 PII와 비밀정보를 차단하는 콘텐츠 가드레일을 제공한다. 하지만 기존 AI Gateway만으로는 누가 얼마를 쓰는지, AI 지출에 어떤 제한을 둘 수 있는지 쉽게 답하기 어려웠다. 계정 전체의 집계 사용량은 볼 수 있었지만, 특정 직원이나 팀별 비용을 분리해 파악하거나 팀·역할별 예산을 강제하는 기능은 부족했다.

4. 달러 기준 지출 한도와 실시간 비용 통제

이번 발표에서 Cloudflare는 AI Gateway의 핵심 기능으로 지출 한도를 추가했다고 밝혔다. 이 한도는 토큰 수가 아니라 실제 비용인 달러 기준으로 설정되며, 전통적인 rate limiting과 별도로 모든 요청의 누적 지출을 추적한다. 한도는 모델, 제공업체, 또는 관리자가 정의한 사용자·팀·애플리케이션 같은 커스텀 속성 조합에 적용할 수 있다. 기간 역시 매월 1일, 매주 월요일, 매일 자정처럼 고정된 리셋 방식이나 rolling window 방식으로 설정할 수 있으며, 일간·주간·월간 단위가 가능하다. AI Gateway는 모델 가격을 바탕으로 요청별 비용을 계산하고, 대시보드에서 모델·제공업체·커스텀 속성별 필터링을 통해 지출을 확인하게 한다.

5. 한도 도달 시 차단 또는 대체 모델 라우팅

지출 한도에 도달했을 때의 동작도 원문에서 중요한 부분으로 다뤄진다. 기본 설정에서는 AI Gateway가 추가 요청을 차단해 예산 초과를 막는다. 그러나 비용 한도가 업무 흐름을 완전히 끊어버리면 엔지니어링 생산성에 문제가 생길 수 있으므로, Dynamic Routes를 통해 한도 도달 후 더 저렴한 fallback 모델로 요청을 보내는 방식도 제공된다. 즉 비용 상한을 유지하면서도 필요한 작업을 계속 진행할 수 있는 완충 장치를 마련하는 셈이다. Cloudflare는 한도 도달 시 알림을 보내는 기능도 추가할 예정이라고 밝혔다. 이 지출 한도 기능은 모든 요금제의 AI Gateway 사용자에게 공개 베타로 제공되며, 대시보드의 gateway settings 또는 API를 통해 설정할 수 있다.

6. 신원 기반 예산·정책과 향후 지능형 라우팅

Cloudflare는 내부적으로 직원들이 매일 AI 도구를 사용하며 AI Gateway를 통해 월간 수백만 요청과 수십억 토큰을 라우팅하는 과정에서 같은 문제를 겪었다고 설명한다. 이를 해결하기 위해 Cloudflare Access로 인증한 직원의 JWT에서 신원을 추출해 AI Gateway 요청의 메타데이터로 붙였고, 그 결과 사용자별 토큰 소비, 팀별 사용량, 조직 전체 비용 귀속을 한곳에서 볼 수 있게 되었다. 이번에는 이러한 접근을 Cloudflare Access와 기존 ID 제공업체를 결합한 신원 기반 예산·정책 비공개 베타로 제공한다. 개인 기여자와 시니어 엔지니어의 월별 예산을 다르게 설정하거나, ML 팀·브랜드 디자인 팀·인턴에게 서로 다른 모델 접근 정책을 적용할 수 있으며, CI/CD 파이프라인과 자율 에이전트에도 서비스 토큰으로 개별 신원을 부여할 수 있다. 마지막으로 Cloudflare는 모든 요청이 프런티어 모델을 필요로 하지 않는다는 전제 아래, 작업을 분석해 가장 낮은 비용으로 좋은 결과를 낼 모델에 자동 라우팅하는 기능도 개발 중이라고 밝혔다.

🧾 핵심 주장 / 시사점

AI 비용 문제의 핵심은 단순한 사용량 증가가 아니라, 공유 API 키와 모델 선택 자유도가 결합되면서 비용 귀속과 책임 구조가 사라지는 데 있다.
토큰 수가 아니라 달러 기준으로 예산을 설정하고 모델·팀·사용자별로 추적하는 방식은 AI 운영을 실험 단계에서 재무적으로 관리 가능한 인프라 단계로 옮기려는 시도다.
신원 기반 예산과 향후 작업 기반 라우팅이 결합되면, 기업의 AI 거버넌스는 ‘누가 얼마나 썼는가’를 넘어서 ‘어떤 작업에 어떤 모델을 쓰게 할 것인가’의 정책 문제로 확장된다.

✅ 액션 아이템

Cloudflare AI Gateway의 spend limits와 budget controls가 팀·프로젝트·모델별 비용 통제에 어떻게 적용되는지 사용 단위로 정리한다.
토큰 비용, rate limit, model routing, 로그·분석 기능을 함께 보며 기존 AI 지출 관리 방식과 비교한다.
개발팀이 AI 비용 폭증을 막기 위해 설정해야 할 기본 정책을 예산 한도, 경고, 차단, 관측성 항목으로 나눠 체크한다.