TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
  • Contatti
TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
TecnoAndroid
TecnoAndroid
  • TecnoAndroid – News e Recensioni Tech
  • Recensioni
  • Scienza e Tecnologia
  • Curiosità
  • Intelligenza Artificiale
  • News
  • Offerte
  • Operatori Telefonici
Copyright 2021 - All Right Reserved
Home News
News

OpenAI presenta HealthBench: benchmark per testare l’IA in medicina

OpenAI presenta HealthBench, un benchmark open source per valutare accuratezza e sicurezza dei modelli IA in medicina.

scritto da Manuel De Pandis 19/05/2025 0 commenti 1 Minuti lettura
OpenAI ChatGPT
Condividi FacebookTwitterLinkedinWhatsappTelegram
12

OpenAI ChatGPT

OpenAI ChatGPT

TecnoAndroid · su Google

Seguici su Google e non perdere nulla

Aggiungi TecnoAndroid alle tue fonti preferite su Discover e segui il nostro profilo Google: le notizie tech più importanti arrivano direttamente sul tuo telefono.

Seguici su:DiscoverGoogleGoogle NewsTelegram

OpenAI ha annunciato HealthBench, un benchmark open source progettato per valutare l’accuratezza e la sicurezza dei modelli di intelligenza artificiale nel contesto sanitario. Lo strumento raccoglie circa 5.000 conversazioni simulate, basate su scenari clinici realistici, per testare la capacità dell’IA di rispondere correttamente a domande mediche.

HealthBench è il nuovo strumento di OpenAI per valutare i modelli in ambito sanitario

Per la realizzazione di HealthBench, OpenAI ha collaborato con 262 professionisti sanitari provenienti da oltre 60 Paesi. Gli esperti hanno contribuito alla scrittura dei casi clinici, che coprono aree come emergenze mediche, situazioni incerte e problemi sanitari globali. Ogni simulazione riproduce dialoghi tra pazienti e medici, con un linguaggio fedele al contesto reale.

Un sistema di valutazione basato su criteri medici

Le risposte fornite dai modelli IA vengono analizzate secondo 48.562 criteri unici, sviluppati con l’aiuto degli stessi medici. I parametri valutano precisione, chiarezza, completezza e sicurezza della risposta. Le rubriche di valutazione sono pensate per verificare se l’IA rispetta le buone pratiche cliniche, riducendo il rischio di errori dannosi o ambiguità.

GPT-4.1 usato per la correzione automatica

Le valutazioni non sono affidate esclusivamente agli esseri umani. OpenAI ha utilizzato il proprio modello GPT-4.1 per eseguire correzioni automatiche delle risposte generate da altri modelli. L’intelligenza artificiale verifica il rispetto dei criteri clinici, assegnando un punteggio in modo standardizzato. Questo consente un’analisi più rapida e scalabile su larga scala.

Nel primo test condotto con HealthBench, OpenAI ha confrontato le prestazioni di diversi modelli: GPT-3.5 Turbo, GPT-4.1 e o3. Il modello o3 ha ottenuto il punteggio più alto, con una media del 60% rispetto ai criteri previsti. GPT-4.1 si è fermato al 47,8%, mentre GPT-3.5 Turbo ha registrato solo il 15,5%. Le prestazioni sono risultate particolarmente deboli nei casi più complessi e nei dialoghi più articolati.

OpenAI ha riconosciuto che l’uso di modelli IA per valutare altri modelli può generare distorsioni o errori condivisi. Il benchmark fornisce risultati omogenei, ma non sostituisce le valutazioni umane complete, soprattutto in contesti ad alta criticità. Il progetto, in ogni caso, punta a diventare uno standard condiviso per lo sviluppo di modelli affidabili in medicina.

HealthBenchopenai
Condividi FacebookTwitterLinkedinWhatsappTelegram
Manuel De Pandis

Filmmaker, giornalista tech.

Articolo precedenti
CoopVoce EVO 200: 200 GB, prezzo fisso e senza sorprese
prossimo articolo
Remix trasforma le foto: Google Foto sperimenta l’arte con l’intelligenza artificiale

Lascia un commento Cancella Risposta

Salva il mio nome, email e sito web in questo browser per la prossima volta che commento.

Ultime news

  • Sally Field: quando Jack Nicholson le cambiò la carriera per sempre

    13/05/2026
  • ChatGPT Health finisce nel mirino dopo la morte di uno studente americano

    13/05/2026
  • YouTube Shorts: arriva Clear Screen per lasciare più spazio agli Shorts

    13/05/2026
  • NVIDIA GeForce, pronti i driver per Forza Horizon 6

    13/05/2026
  • Samsung Galaxy Z TriFold 2: la sorpresa è nascosta nella cerniera

    13/05/2026

2012 – 2026 Tecnoandroid.it – Gestito dalla STARGATE SRLS – P.Iva: 15525681001 Testata telematica quotidiana registrata al Tribunale di Roma CON DECRETO N° 225/2015, editore STARGATE SRLS. Tutti i marchi riportati appartengono ai legittimi proprietari.

Questo articolo potrebbe includere collegamenti affiliati: eventuali acquisti o ordini realizzati attraverso questi link contribuiranno a fornire una commissione al nostro sito.

  • Privacy e Cookie policy
  • FAQ, Disclaimer e Note legali
  • Contatti

🔥 Non perderti nemmeno un'offerta

Le migliori offerte
direttamente su di te

Smartphone, notebook, gadget tech al prezzo più basso.
Unisciti a migliaia di lettori di TecnoAndroid!

Unisciti su Telegram Gratis Seguici su WhatsApp Nuovo
oppure

Ricevi le offerte via email

Iscriviti alla newsletter per non perdere nessuna offerta!

Puoi disiscriverti in qualsiasi momento. Niente spam, solo offerte vere. 🎯

TecnoAndroid
  • Home