Da oltre vent’anni, il file robots.txt rappresenta una delle basi del web. Potremmo infatti definirla come la “porta digitale” che stabilisce quali aree di un sito possono essere esplorate dai motori di ricerca e quali no. Ma nell’era dell’IA, questa semplice regola non basta più. Sempre più aziende AI ignorano infatti le istruzioni dei siti, scaricando e utilizzando contenuti senza permesso per addestrare chatbot e modelli linguistici.
Per rispondere a questa situazione, Cloudflare, che gestisce circa il 20% del traffico mondiale, ha lanciato la Content Signals Policy. Ovvero un’estensione del tradizionale robots.txt pensata per garantire agli editori un maggiore controllo sull’uso dei propri contenuti. Il sistema introduce tre nuovi “segnali” che definiscono con precisione i limiti di utilizzo da parte dei bot. Tra essi: search (per l’indicizzazione nei motori di ricerca), ai-input (per l’uso nelle risposte generate dalle AI) e ai-train (per l’addestramento dei modelli).
Le regole sono semplici. Ogni segnale può essere impostato su “sì” o “no”. Un sito può, ad esempio, permettere l’indicizzazione ma vietare l’uso dei propri articoli per l’addestramento di modelli AI. Cloudflare ha già attivato la funzione su oltre 3,8 milioni di domini, con impostazioni predefinite che lasciano aperta la ricerca ma bloccano l’uso per l’AI training.
AI, copyright e il futuro del web: cosa cambia con le nuove regole Cloudflare
L’introduzione di questa policy arriva in un momento fondamentale. Secondo le stime di Cloudflare, entro il 2029 il traffico dei bot supererà quello umano, e nel 2031 sarà superiore all’intero traffico internet di oggi. Una crescita che rischia di aggravare il cosiddetto “free-rider problem”. Ossia la situazione in cui i creatori di contenuti sostengono i costi di hosting e manutenzione senza ricevere alcun ritorno, mentre le aziende di intelligenza artificiale sfruttano il loro lavoro per trarne profitto.
Oltre al valore etico e tecnico, la nuova policy ha anche implicazioni legali. Cloudflare chiarisce che i “content signals” rappresentano una riserva esplicita di diritti ai sensi della Direttiva Europea 2019/790, fornendo così una base giuridica più solida per eventuali azioni contro l’uso non autorizzato dei contenuti.
Resta però un nodo non ancora risolto. Google utilizza lo stesso crawler per la ricerca e per le sue funzioni AI Overviews. I publisher, quindi, devono scegliere se mantenere la visibilità su Google o bloccare l’uso dei loro contenuti per l’AI. Una scelta che penalizza soprattutto i siti più piccoli, dipendenti dal traffico organico per sopravvivere.
Cloudflare precisa che la nuova policy non è un sistema di blocco, ma uno strumento di dichiarazione aperto e universale, rilasciato con licenza CC0 per favorirne l’adozione globale. In futuro, l’azienda prevede persino un modello “pay-per-crawl”, dove i bot AI dovranno pagare per accedere ai contenuti.
