La scoperta di messaggi promozionali generati da GitHub Copilot all’interno di pull request su GitHub ha riacceso un dibattito che covava da tempo nel mondo dello sviluppo software. Il programmatore Zach Manson ha portato alla luce un episodio che, a prima vista, sembra quasi surreale: un membro del suo team aveva chiesto a Copilot di correggere un semplice refuso. Nulla di complicato. L’intelligenza artificiale ha eseguito il compito, ma ha pensato bene di aggiungere anche una sorta di pubblicità nel testo della pull request, con un invito esplicito a utilizzare Copilot insieme a Raycast. La reazione di Manson è stata piuttosto netta: “È orribile. Sapevo che prima o poi sarebbe successo, ma non pensavo così presto.”
E la cosa più preoccupante? Non si tratta di un episodio isolato. Un’indagine successiva ha rivelato che la stessa identica frase promozionale è comparsa in oltre 11.000 pull request, spesso accompagnata da diciture come “START COPILOT CODING AGENT TIPS”. Questo lascia pensare che il sistema stia inserendo in modo automatico suggerimenti o veri e propri messaggi pubblicitari nei contenuti generati. Qualcosa che, per chi lavora quotidianamente con il codice, somiglia più a un virus che a uno strumento di supporto.
La responsabilità è di Copilot o delle integrazioni esterne?
Non è ancora del tutto chiaro dove stia il confine delle responsabilità. Potrebbe essere colpa esclusiva di GitHub Copilot, oppure anche di integrazioni esterne come Raycast, che dispone di un’estensione dedicata per interagire con il servizio. Qualunque sia la risposta tecnica, il punto resta lo stesso: queste nuove tecnologie vengono infilate a forza dalle grandi aziende in ogni software possibile, e quando qualcosa va storto, a pagarne le conseguenze sono soprattutto i piccoli sviluppatori. Non è la prima volta che succede, basta pensare al caso Godot per avere un precedente concreto.
Il fatto che Microsoft, proprietaria di GitHub, stia spingendo Copilot praticamente ovunque rende la questione ancora più delicata. C’è un elemento che spesso sfugge al grande pubblico ma che nella comunità degli sviluppatori è ben noto: GitHub utilizza i dati delle interazioni degli utenti, compresi input e output di Copilot, per addestrare i propri modelli di intelligenza artificiale. Esiste la possibilità di fare opt out, ma solo per alcuni utenti e con procedure che non tutti conoscono o applicano.
Il rischio del circolo vizioso tra contenuti generati e addestramento
Questo meccanismo apre a scenari che definire problematici è quasi un eufemismo. I contenuti generati dall’intelligenza artificiale finiscono per alimentare altri sistemi di IA, creando un circolo che alla lunga potrebbe rivelarsi distruttivo. Alcuni osservatori parlano di un vero e proprio effetto feedback: errori, distorsioni, contenuti indesiderati come gli annunci pubblicitari scoperti da Manson vengono amplificati con il passare del tempo anziché corretti. È un fenomeno che si era già intravisto nelle prime fasi di chatbot come Bard o Bing Chat, che talvolta citavano le fonti in modo impreciso o generavano informazioni completamente inventate.
Con oltre 11.000 pull request compromesse da messaggi promozionali non richiesti, la portata dell’episodio legato a GitHub Copilot va ben oltre il fastidio momentaneo di un singolo team di sviluppo. Resta da capire se Microsoft interverrà con una correzione rapida o se lascerà che la situazione si chiarisca da sola, come già accaduto in passato con altri problemi legati ai propri strumenti di IA generativa.
