Il sospetto è che alcuni punteggi ottenuti da Maverick e Behemoth, in particolare nei test scientifici e di programmazione, siano stati “dopati” artificialmente. A rafforzare la voce delle accuse hanno contribuito segnalazioni da parte degli utenti. I quali hanno evidenziato differenze sostanziali tra la versione dimostrativa dei modelli su LMArena e quella resa disponibile agli sviluppatori. In più, lo stesso documento ufficiale di Meta specificava che la versione testata pubblicamente di Maverick era una variante sperimentale, cosa che ha alimentato ulteriori dubbi.
Meta ha reagito con prontezza. Ahmad Al-Dahle, vicepresidente della divisione AI generativa, ha definito le accuse “false e infondate”. Egli ha sottolineato che l’azienda non ha mai incluso deliberatamente dati di benchmark nei processi di addestramento. Secondo Al-Dahle, i modelli sono stati rilasciati in tempi stretti e alcune differenze tra le versioni pubbliche e quelle dimostrative sono normali, trattandosi di implementazioni ancora in fase di ottimizzazione. Meta ha poi ribadito che il punteggio ELO ottenuto da Maverick su LMArena è relativo a una versione “chat” non definitiva.
Nonostante la smentita ufficiale, la vicenda continua a generare dibattito. Llama 4, presentato come un sistema multimodale all’avanguardia, ambisce a superare la concorrenza grazie alla potenza di Behemoth e all’efficienza di Scout. Per molti osservatori però, sarà fondamentale attendere i risultati di test indipendenti per chiarire la reale qualità dei modelli e la trasparenza del processo che li ha generati.