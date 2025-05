OpenAI ChatGPT

OpenAI ha annunciato HealthBench, un benchmark open source progettato per valutare l’accuratezza e la sicurezza dei modelli di intelligenza artificiale nel contesto sanitario. Lo strumento raccoglie circa 5.000 conversazioni simulate, basate su scenari clinici realistici, per testare la capacità dell’IA di rispondere correttamente a domande mediche.

HealthBench è il nuovo strumento di OpenAI per valutare i modelli in ambito sanitario

Per la realizzazione di HealthBench, OpenAI ha collaborato con 262 professionisti sanitari provenienti da oltre 60 Paesi. Gli esperti hanno contribuito alla scrittura dei casi clinici, che coprono aree come emergenze mediche, situazioni incerte e problemi sanitari globali. Ogni simulazione riproduce dialoghi tra pazienti e medici, con un linguaggio fedele al contesto reale.

Un sistema di valutazione basato su criteri medici

Le risposte fornite dai modelli IA vengono analizzate secondo 48.562 criteri unici, sviluppati con l’aiuto degli stessi medici. I parametri valutano precisione, chiarezza, completezza e sicurezza della risposta. Le rubriche di valutazione sono pensate per verificare se l’IA rispetta le buone pratiche cliniche, riducendo il rischio di errori dannosi o ambiguità.

GPT-4.1 usato per la correzione automatica

Le valutazioni non sono affidate esclusivamente agli esseri umani. OpenAI ha utilizzato il proprio modello GPT-4.1 per eseguire correzioni automatiche delle risposte generate da altri modelli. L’intelligenza artificiale verifica il rispetto dei criteri clinici, assegnando un punteggio in modo standardizzato. Questo consente un’analisi più rapida e scalabile su larga scala.

Nel primo test condotto con HealthBench, OpenAI ha confrontato le prestazioni di diversi modelli: GPT-3.5 Turbo, GPT-4.1 e o3. Il modello o3 ha ottenuto il punteggio più alto, con una media del 60% rispetto ai criteri previsti. GPT-4.1 si è fermato al 47,8%, mentre GPT-3.5 Turbo ha registrato solo il 15,5%. Le prestazioni sono risultate particolarmente deboli nei casi più complessi e nei dialoghi più articolati.

OpenAI ha riconosciuto che l’uso di modelli IA per valutare altri modelli può generare distorsioni o errori condivisi. Il benchmark fornisce risultati omogenei, ma non sostituisce le valutazioni umane complete, soprattutto in contesti ad alta criticità. Il progetto, in ogni caso, punta a diventare uno standard condiviso per lo sviluppo di modelli affidabili in medicina.