Il 18 novembre 2025 è stato un giorno complicato per Cloudflare, uno degli attori più importanti dell’infrastruttura di Internet. L’azienda gestisce servizi importanti come CDN, protezione dagli attacchi, strumenti di sicurezza e gestione del traffico web. Ogni anomalia nei suoi sistemi può produrre conseguenze molto ampie e il down avvenuto poco dopo mezzogiorno lo ha dimostrato chiaramente. Migliaia di siti e applicazioni hanno iniziato a restituire errori 5xx, rendendo irraggiungibili piattaforme utilizzate ogni giorno da milioni di utenti. In un lungo resoconto tecnico, il CEO Matthew Prince ha chiarito subito un punto fondamentale, spiegando che l’incidente non era collegato a un attacco informatico.
Riparazione del sistema Cloudflare e misure preventive
La causa è nata alle 12:05 italiane, quando una modifica ai permessi di un cluster ClickHouse ha provocato un comportamento inatteso nel sistema di gestione dei dati. Il database coinvolto ha iniziato a generare moltissime righe duplicate nel file utilizzato dal sistema di Bot Management per distinguere traffico umano e traffico automatico. Questo file viene rigenerato in modo frequente e distribuito rapidamente in tutto il mondo. L’aumento improvviso delle sue dimensioni ha superato i limiti del software incaricato di leggerlo. Il risultato è stato un errore interno che si è propagato quasi istantaneamente nei nodi della rete globale. L’incidente è diventato evidente intorno alle 12:20, quando i file difettosi hanno raggiunto un numero sufficiente di server da generare errori su larga scala.
Il team tecnico ha iniziato a isolare il problema intorno alle 13:00 italiane. Poco dopo sono stati attivati alcuni bypass per alleggerire il carico su servizi come Workers KV e Access, rendendo più semplice la gestione dell’emergenza. La svolta è arrivata alle 14:24, quando gli ingegneri hanno identificato il file difettoso come causa diretta dell’interruzione. La sua distribuzione è stata fermata immediatamente e una versione corretta è stata preparata e inviata ai nodi della rete poco dopo le 14:30. Da quel momento il traffico ha iniziato a stabilizzarsi gradualmente.
L’intero ecosistema è tornato operativo alle 18:06. Cloudflare ha annunciato una serie di interventi per prevenire episodi simili. I file di configurazione verranno trattati come dati critici, con controlli più severi prima della distribuzione. Saranno poi introdotti meccanismi di blocco immediato per impedire la propagazione di file difettosi e verrà rivista la gestione dei report di errore, così da evitare che sovraccarichino i sistemi durante le fasi più delicate. Prince ha definito l’incidente il più grave dal 2019 e ha ribadito che un’interruzione simile è inaccettabile per un’azienda con un ruolo centrale nella rete globale. Ha poi concluso scusandosi pubblicamente.
