Gli abbonamenti all’intelligenza artificiale generativa stanno iniziando a mostrare una crepa che fino a poco tempo fa restava nascosta sotto la superficie. Strumenti come ChatGPT e Claude hanno abituato utenti e aziende a una formula tanto comoda quanto pericolosa per chi la offre: una quota fissa mensile in cambio di un utilizzo quasi senza limiti. Il problema è che l’AI generativa funziona in modo diverso dai vecchi servizi cloud. Ogni richiesta porta con sé un costo reale, fatto di GPU, memoria, rete ed energia elettrica. E con l’arrivo degli agenti autonomi, del coding assistito e delle elaborazioni prolungate, il numero di token macinati è cresciuto a un ritmo che pochi avevano messo in conto.
Nel 2025 ChatGPT ha superato il miliardo di utenti attivi ogni mese, mentre Anthropic continua a guadagnare terreno nel segmento professionale. La sfida, per entrambe, è la stessa: tenere in piedi un modello commerciale che regala enormi quantità di potenza di calcolo a fronte di canoni relativamente bassi.
Perché gli abbonamenti AI rischiano di non coprire i costi
Un’analisi pubblicata da SemiAnalysis ha provato a mettere dei numeri su questo squilibrio. I ricercatori hanno acquistato i vari piani premium di OpenAI e Anthropic e li hanno spinti al limite, con compiti di programmazione avanzata e workflow agentici, fino a esaurire le soglie settimanali previste. Quello che è venuto fuori è uno scarto enorme tra quanto paga l’utente e il valore teorico delle risorse consumate, calcolato secondo le tariffe API ufficiali.
Stando alle stime, un piano ChatGPT Pro 20x da EUR 173 al mese, ovvero circa 185 euro, potrebbe generare un consumo equivalente a circa 13.000 euro di utilizzo API. Per il piano Claude Max 20x, venduto allo stesso prezzo, il valore teorico delle risorse impiegate sfiora i 7.400 euro. Va detto che non tutti arrivano a questi estremi, e su questo si regge l’intero modello economico delle aziende. La maggior parte degli abbonati sfrutta solo una piccola parte di ciò che ha a disposizione. Quando però la quota di utenti intensivi cresce, i margini si assottigliano in fretta.
Il peso dei token e delle attività agentiche
Per capire dove sta il nodo bisogna guardare a come funzionano i modelli linguistici. Ogni interazione consuma token, le unità minime di testo elaborate dal modello. Una semplice domanda e risposta ne richiede pochi. Le cose cambiano completamente con il coding assistito e i sistemi agentici. Un assistente software che analizza un intero repository GitHub, modifica file, verifica risultati, lancia test e scrive documentazione può fare decine o centinaia di chiamate al modello in una sola sessione. Alcune stime parlano di consumi fino a 1000 volte superiori rispetto a una normale conversazione.
Ogni ciclo di ragionamento in più carica le infrastrutture. Modelli come GPT-5.5, Claude Opus 4.7 e le future generazioni frontier hanno bisogno di cluster GPU con acceleratori di fascia alta, spesso architetture NVIDIA pensate per l’inferenza. E il conto non si ferma all’hardware: ci sono raffreddamento, banda, storage e disponibilità continua.
I dati di SemiAnalysis raccontano margini sottilissimi. Anthropic raggiungerebbe il pareggio sui piani Claude Pro e Claude Max 5x intorno al 20% dell’utilizzo massimo. OpenAI vedrebbe i propri margini sparire molto prima: i piani ChatGPT Plus e ChatGPT Pro 5x smetterebbero di essere redditizi oltre l’11,4% di utilizzo effettivo. Nei livelli più alti la cosa si aggrava, con Anthropic a margine lordo nullo verso il 10% e OpenAI in negativo già oltre il 5,7%.
Model routing e open source per arginare la spesa
Non è per forza una crisi alle porte. Molte aziende tech accettano margini risicati all’inizio per conquistare quote di mercato. Il punto è che l’intelligenza artificiale chiede investimenti infrastrutturali ben più pesanti del software tradizionale. E qualcosa si è già mosso: diversi gruppi stanno ridimensionando i programmi interni che spingevano all’uso massiccio dell’AI. Microsoft, Meta e Amazon avrebbero rivisto alcune iniziative dopo aver visto schizzare la spesa legata ai token. Si parla persino di un’azienda che avrebbe bruciato circa 500 milioni di dollari, all’incirca 460 milioni di euro, in un solo mese usando Claude senza limiti adeguati per i dipendenti. Una cifra non confermata in ogni dettaglio, ma il messaggio è chiaro.
Tra le soluzioni emerse spicca il model routing. L’idea è semplice: non ogni richiesta merita il modello più potente. Un sistema intelligente manda i compiti complessi verso i modelli frontier, quelli più costosi, e lascia le attività ripetitive ai modelli economici. In certi scenari aziendali questo taglia la spesa fino al 95%. In parallelo cresce l’attenzione verso i modelli open source. DeepSeek è uno degli esempi più citati. Flo Crivello, fondatore della startup Lindy, ha raccontato di aver spostato tutto il traffico della sua piattaforma su DeepSeek V4, abbandonando i modelli Anthropic e risparmiando milioni di dollari. Chi lavora in settori regolamentati o ha bisogno del miglior ragionamento possibile resta spesso fedele ai modelli commerciali più avanzati, ma il divario di costo sta diventando un fattore pesante quanto la qualità delle risposte.