Un gruppo di ricercatori Apple ha sviluppato un framework di intelligenza artificiale capace di esplorare più percorsi di ragionamento in parallelo prima di fornire una risposta definitiva. Si chiama LaDiR, acronimo di Latent Diffusion Enhances LLMs for Text Reasoning, ed è stato descritto in uno studio realizzato insieme a ricercatori dell’Università della California, San Diego. L’idea alla base è tanto elegante quanto ambiziosa: combinare due approcci diversi alla generazione del testo per ottenere risposte più accurate e affidabili da parte dei modelli linguistici di grandi dimensioni (LLM).
Come funziona LaDiR, il framework AI di Apple
Per capire cosa fa LaDiR, vale la pena fare un passo indietro. Esistono due grandi famiglie di modelli per generare testo. I modelli autoregressivi, quelli più diffusi, producono una parola alla volta, in sequenza. I modelli a diffusione, invece, lavorano su molti elementi contemporaneamente, raffinandoli progressivamente. Ognuno ha pregi e limiti. Quello che i ricercatori Apple hanno fatto con LaDiR è stato unire entrambi gli approcci in un unico processo: durante la fase di ragionamento viene utilizzata la diffusione, mentre la risposta finale viene generata in modo autoregressivo, un token alla volta.
Ma il dettaglio più interessante è un altro. LaDiR non segue un solo percorso di ragionamento: ne attiva diversi in parallelo, ciascuno con il proprio processo di diffusione. Un meccanismo interno spinge questi percorsi a esplorare possibilità differenti, evitando che convergano tutti sulla stessa soluzione troppo presto. Ogni blocco di ragionamento parte da un pattern casuale, una sorta di rumore, che viene gradualmente raffinato fino a diventare un passaggio logico coerente. Quando il modello ritiene di aver ragionato abbastanza, passa alla generazione della risposta vera e propria.
Un punto importante: LaDiR non è un nuovo modello a sé stante. È piuttosto un framework che si appoggia su modelli linguistici già esistenti, modificando il modo in cui affrontano un problema senza sostituirli del tutto. Questo lo rende potenzialmente applicabile a diverse architetture già in circolazione.
I risultati nei test su matematica, codice e puzzle
I ricercatori Apple hanno testato LaDiR su diversi compiti. Per il ragionamento matematico e la pianificazione di puzzle è stato applicato a LLaMA 3.1 8B di Meta, mentre per la generazione di codice è stato usato Qwen3 8B Base. I risultati sono stati piuttosto convincenti.
Sui benchmark matematici, LaDiR ha raggiunto una precisione superiore rispetto agli approcci esistenti, dimostrando una performance più solida anche su compiti più complessi e fuori distribuzione, quelli cioè su cui il modello non era stato specificamente addestrato. Nella generazione di codice, su benchmark come HumanEval, ha prodotto output più affidabili rispetto al fine tuning standard, con un margine particolarmente evidente sui problemi più difficili.
Per quanto riguarda i compiti di pianificazione in stile puzzle, come il gioco Countdown, LaDiR ha esplorato una gamma più ampia di risposte valide rispetto a qualsiasi modello di riferimento, trovando soluzioni corrette con maggiore regolarità rispetto a tutti i baseline generalisti. Ha però mostrato un limite: su singoli tentativi, un modello specializzato e progettato appositamente per quel tipo di compito è riuscito comunque a fare meglio in termini di accuratezza puntuale.
