Stavolta non si parla di un esercizio accademico né dell’ennesima gara tra modelli di intelligenza artificiale. Aletheia, il nuovo agente sviluppato da Google DeepMind, sta facendo parlare di sé per una ragione molto concreta: riesce ad affrontare dimostrazioni matematiche di livello olimpico con un’accuratezza del 95,1%, contro il 65,7% raggiunto dal modello che lo ha preceduto. Un salto enorme, che cambia completamente la prospettiva su cosa possa fare un sistema di intelligenza artificiale quando viene messo di fronte a problemi reali, non solo a test preparati ad hoc.
E la cosa davvero notevole è che Aletheia non si limita a risolvere quesiti noti. In alcuni casi, ha affrontato problemi matematici rimasti aperti per decenni, trovando soluzioni che la comunità scientifica non era ancora riuscita a formulare. Non è poco, anzi è il tipo di risultato che inizia a far discutere molto seriamente tra chi fa ricerca di professione.
Dalla competizione alla ricerca: cosa rende Aletheia diverso
Fino a poco tempo fa, i modelli di intelligenza artificiale applicati alla matematica venivano valutati quasi esclusivamente su benchmark competitivi. Olimpiadi, gare internazionali, problemi con soluzioni già note. Utile per misurare i progressi, certo, ma lontano dalla vera sfida: produrre nuova conoscenza. Aletheia sembra aver superato quella soglia, almeno in parte. Il fatto che riesca a lavorare su problemi senza soluzione conosciuta lo colloca in una zona diversa rispetto ai suoi predecessori.
Google DeepMind ha costruito questo agente con un approccio che combina capacità di ragionamento avanzato e un sistema di verifica delle dimostrazioni particolarmente robusto. Non si tratta semplicemente di generare risposte plausibili: Aletheia è in grado di costruire catene logiche coerenti e di verificarle internamente, riducendo drasticamente il margine di errore. Il risultato è quel 95,1% che, nel contesto delle dimostrazioni matematiche formali, rappresenta un livello di affidabilità mai raggiunto prima da un sistema automatizzato.
Numeri che contano davvero
Il passaggio dal 65,7% al 95,1% può sembrare una questione di punti percentuali, ma nel mondo delle dimostrazioni formali ogni singolo punto in più è enormemente significativo. I problemi a livello olimpico richiedono ragionamenti estremamente rigorosi, dove un errore anche piccolo invalida tutta la catena. Raggiungere quella soglia significa che Aletheia sbaglia molto raramente, e quando lo fa, il tipo di errore è spesso marginale.
Ma il dato ancora più interessante riguarda i problemi aperti. Quando un agente riesce a proporre soluzioni per questioni su cui generazioni di matematici hanno lavorato senza successo, si entra in un territorio completamente nuovo. Non si sta parlando di velocità nel calcolo o di forza bruta computazionale. Si sta parlando di qualcosa che assomiglia, almeno nei risultati, a intuizione matematica. Ovviamente il dibattito su cosa significhi davvero “intuizione” per una macchina è tutt’altro che chiuso, ma i risultati parlano da soli.
Google DeepMind ha specificato che Aletheia è stato testato su un insieme diversificato di problemi, non solo su categorie in cui i modelli precedenti già eccellevano. Questo rende il punteggio ancora più solido, perché esclude che si tratti di un miglioramento dovuto a una specializzazione eccessiva su certi tipi di quesiti. La versatilità dell’agente è parte integrante del risultato.
