Anthropic ha presentato BioMysteryBench, un nuovo strumento pensato per valutare le capacità del proprio modello di intelligenza artificiale nel campo della bioinformatica, mettendolo direttamente a confronto con esperti umani del settore. Il benchmark nasce dal lavoro del team di ricerca interno, e i risultati raccontano qualcosa di piuttosto interessante su dove si trovano oggi i modelli linguistici quando devono affrontare problemi scientifici complessi.
Il punto centrale della questione è questo: Claude, nella sua versione denominata Mythos, è riuscito a risolvere circa il 30% di 23 domande che avevano messo in difficoltà ricercatori esperti nel campo. Domande non banali, quindi, ma quesiti che nemmeno chi lavora quotidianamente con dati biologici e genomici era riuscito a sbrogliare. Un risultato che, letto così, potrebbe sembrare modesto, ma che acquista un peso diverso se si considera la natura delle sfide proposte.
Cosa misura davvero BioMysteryBench e perché è rilevante
BioMysteryBench non è il solito test a risposta multipla. L’idea alla base è sottoporre al modello problemi reali, quelli che si incontrano nella pratica della bioinformatica, dove spesso non esiste una soluzione ovvia e serve una combinazione di ragionamento, conoscenza di dominio e capacità di analisi. La scelta di usare domande che avevano già “bloccato” esperti umani è una mossa precisa: non si tratta di verificare se il modello sa rispondere a domande facili, ma di capire fino a che punto riesce a spingersi là dove anche le persone più preparate si fermano.
Brianna, ricercatrice del team discovery di Anthropic, ha condiviso i risultati di questo sforzo di benchmarking. Il fatto che Mythos abbia centrato circa il 30% delle risposte su questioni così difficili apre una riflessione concreta sulle potenzialità dei modelli linguistici come strumenti di supporto nella ricerca scientifica. Non si parla di sostituire nessuno, ma di affiancare chi fa ricerca con uno strumento capace di proporre angolazioni diverse su problemi ostici.
Limiti e prospettive dopo i primi test
Il 30% potrebbe far storcere il naso a qualcuno, ma va contestualizzato. Questi erano quesiti che esperti umani non avevano risolto. Il fatto che un modello di intelligenza artificiale riesca a trovare una soluzione valida in quasi un terzo dei casi è un segnale che la bioinformatica potrebbe diventare uno dei terreni più fertili per la collaborazione tra esseri umani e sistemi AI. Anthropic, con questa iniziativa, sembra voler tracciare un percorso chiaro: costruire benchmark sempre più specifici e realistici per capire dove i propri modelli funzionano davvero e dove invece devono ancora migliorare.
