Il lancio del modello GPT 5.1 ha portato a un confronto inatteso nella community tecnologica, innescato da un commento di Sam Altman su X. Il CEO di OpenAI ha evidenziato un risultato apparentemente minimo: ChatGPT, quando viene istruito a evitare gli em dash, riesce finalmente a rispettare con coerenza questa preferenza. Una novità che, pur sembrando marginale, ha riportato l’attenzione su un tema centrale nell’evoluzione dei modelli linguistici: la loro reale capacità di seguire istruzioni specifiche.

Molti osservatori hanno interpretato questo “successo” come un segnale della complessità che caratterizza il controllo dei comportamenti delle AI. Se sono stati necessari anni per ottenere un miglioramento nella gestione della punteggiatura, il percorso verso un sistema capace di ragionamento autonomo appare ancora molto lungo. È un promemoria delle dinamiche interne degli LLM, basate su correlazioni statistiche e non su regole deterministiche.

Perché evitare un semplice segno di punteggiatura è così difficile

Il caso degli em dash è emblematico perché questo simbolo è estremamente diffuso nella scrittura anglosassone, dai testi dell’Ottocento agli articoli contemporanei. È quindi molto presente nei dataset utilizzati per addestrare i modelli. Quando l’utente chiede di evitarlo, l’istruzione entra in conflitto con uno schema profondamente radicato. Le preferenze vengono recepite come testo aggiuntivo al prompt, capaci di influenzare le probabilità ma non di imporre divieti assoluti.

Questo meccanismo mette in luce il limite strutturale degli LLM: generano testo scegliendo l’opzione statisticamente più probabile, non applicando regole grammaticali o stilistiche nel senso tradizionale. L’assenza di intenzionalità rende più complesso garantire un comportamento perfettamente coerente in contesti diversi.

Un comportamento che può cambiare da una versione all’altra

La situazione è resa più complicata dagli aggiornamenti continui dei modelli. Una regolazione pensata per ridurre l’utilizzo di una particolare struttura linguistica può essere annullata da un update successivo, ottimizzato per altri compiti come il coding o la generazione visiva. È qui che emerge la fragilità del comportamento degli LLM: miglioramenti ottenuti oggi possono svanire domani senza che gli utenti ne siano del tutto consapevoli.

Questo contesto spiega perché il “piccolo successo” citato da Altman è, in realtà, un campanello d’allarme sulla distanza che separa gli attuali modelli da un concetto stabile di AGI. ChatGPT resta uno strumento potente, ma le sue risposte rimangono frutto di scelte probabilistiche, non di comprensione profonda.