Una polemica crescente sta offuscando il recente lancio della nuova generazione di modelli LLM di Meta, la famiglia Llama 4. Subito dopo la presentazione ufficiale dei modelli Scout, Maverick e Behemoth, un post anonimo pubblicato su una piattaforma cinese ha acceso i riflettori su possibili irregolarità nei processi di addestramento. Secondo quanto riportato, alcuni dirigenti dell’azienda avrebbero autorizzato l’inserimento di dati provenienti dai benchmark nei dataset utilizzati per il fine-tuning. Tutto ciò al solo scopo di ottenere risultati apparentemente eccellenti entro una scadenza interna prefissata. L’autore del post, che affermava di essere un ex dipendente, ha dichiarato di aver rifiutato di firmare il report tecnico dei modelli proprio per dissociarsi da questa pratica.
Meta si difende, ma i sospetti restano
Il sospetto è che alcuni punteggi ottenuti da Maverick e Behemoth, in particolare nei test scientifici e di programmazione, siano stati “dopati” artificialmente. A rafforzare la voce delle accuse hanno contribuito segnalazioni da parte degli utenti. I quali hanno evidenziato differenze sostanziali tra la versione dimostrativa dei modelli su LMArena e quella resa disponibile agli sviluppatori. In più, lo stesso documento ufficiale di Meta specificava che la versione testata pubblicamente di Maverick era una variante sperimentale, cosa che ha alimentato ulteriori dubbi.
Meta ha reagito con prontezza. Ahmad Al-Dahle, vicepresidente della divisione AI generativa, ha definito le accuse “false e infondate”. Egli ha sottolineato che l’azienda non ha mai incluso deliberatamente dati di benchmark nei processi di addestramento. Secondo Al-Dahle, i modelli sono stati rilasciati in tempi stretti e alcune differenze tra le versioni pubbliche e quelle dimostrative sono normali, trattandosi di implementazioni ancora in fase di ottimizzazione. Meta ha poi ribadito che il punteggio ELO ottenuto da Maverick su LMArena è relativo a una versione “chat” non definitiva.
Nonostante la smentita ufficiale, la vicenda continua a generare dibattito. Llama 4, presentato come un sistema multimodale all’avanguardia, ambisce a superare la concorrenza grazie alla potenza di Behemoth e all’efficienza di Scout. Per molti osservatori però, sarà fondamentale attendere i risultati di test indipendenti per chiarire la reale qualità dei modelli e la trasparenza del processo che li ha generati.