Tenere a bada i costi dell’Intelligenza Artificiale è ormai un problema serio per chi lavora in azienda, e Cloudflare ha deciso di metterci mano con uno strumento pensato proprio per questo. La novità si chiama Spend Limits e arriva dentro AI Gateway, con l’obiettivo di fissare dei tetti di spesa direttamente sull’uso dei modelli generativi. Una risposta concreta a una difficoltà che tante organizzazioni conoscono bene.
Il punto è semplice. Da quando i modelli generativi sono entrati nello sviluppo software, nell’assistenza clienti e nell’analisi dei documenti, il consumo di token è schizzato e con esso le spese operative. Il guaio è che spesso ci si accorge del problema solo a fine mese, quando arriva la fattura del provider e mostra cifre importanti senza spiegare quale team o quale applicazione abbia bruciato di più. Una specie di scatola nera, insomma, difficile da gestire.
Come lavora AI Gateway e cosa cambia con gli Spend Limits
Cloudflare AI Gateway funziona come uno strato intermedio tra le applicazioni aziendali e i modelli AI. Invece di collegarsi in modo diretto a provider come OpenAI, Anthropic o Google, le richieste passano dal gateway, che tiene traccia di utilizzo, costi e numero di chiamate. Il sistema gestisce anche caching, routing e limitazione del traffico, quindi non è solo un contatore.
Prima dell’arrivo di questa funzione gli amministratori potevano vedere il consumo complessivo, ma non avevano un modo integrato per assegnare un budget a singoli utenti, reparti o applicazioni. Un limite che pesava soprattutto dove le chiavi API venivano condivise tra molti dipendenti, rendendo praticamente impossibile capire chi spendeva cosa.
La logica dei nuovi Spend Limits ribalta l’approccio: il controllo non si basa sul numero di richieste, ma sul denaro effettivamente speso. Ogni regola definisce un budget e un intervallo di tempo, che può essere giornaliero, settimanale o mensile. Il sistema calcola il costo di ogni richiesta a partire dai token consumati e dal listino del modello usato, monitorando la spesa in tempo reale. Quando si supera la soglia, AI Gateway può bloccare le richieste successive con un errore HTTP 429 oppure dirottarle su percorsi alternativi già impostati. Cloudflare tiene a precisare un dettaglio non da poco: il monitoraggio è basato su una stima, e per i conti definitivi serve comunque confrontare i dati con quelli dei singoli provider.
Budget su misura, fallback automatico e identità digitali
La parte interessante riguarda la granularità. Gli amministratori possono applicare i limiti in base al provider, al modello oppure a metadati personalizzati, come identificativi utente, gruppi aziendali o singole applicazioni. Ci sono due modalità: una divide in automatico il budget tra valori diversi, creando un plafond separato per ciascun utente; l’altra applica la regola a un valore specifico, ad esempio un reparto o un determinato modello linguistico.
Cloudflare porta qualche esempio pratico. Budget mensili diversi tra sviluppatori junior e senior, oppure regole che permettono al team di machine learning di usare i modelli più avanzati lasciando a tutti gli altri soluzioni meno costose. Sensato, quando le risorse non sono infinite.
C’è poi un dettaglio che fa la differenza. Bloccare un’applicazione appena finisce il budget non è sempre la mossa giusta, perché si rischia di fermare un servizio. Per questo la funzione si appoggia al routing dinamico di Cloudflare: una volta raggiunto il tetto su un modello costoso, il traffico viene reindirizzato in automatico verso un’alternativa più economica, così il servizio resta in piedi. Spend Limits è disponibile in open beta su tutti i piani, configurabile da dashboard o tramite API, con un tetto massimo di venti regole per ogni gateway.