Una ricerca identifica i punti ciechi nel triage medico dell’intelligenza artificiale

Una ricerca identifica i punti ciechi nel triage medico dell’intelligenza artificiale

Una ricerca identifica i punti ciechi nel triage medico dell’intelligenza artificiale

La prima valutazione indipendente di ChatGPT Health condotta dai ricercatori della Icahn School of Medicine del Mount Sinai, pubblicata on line su Nature Medicine solleva interrogativi sulla sicurezza degli strumenti di intelligenza artificiale per i consumatori nelle decisioni mediche urgenti

ChatGPT Health, uno strumento di intelligenza artificiale (IA) ampiamente utilizzato dai consumatori che fornisce indicazioni sanitarie direttamente al pubblico, compresi consigli su quanto urgentemente cercare assistenza medica, potrebbe non riuscire a indirizzare gli utenti in modo appropriato al pronto soccorso in un numero significativo di casi gravi.

Questi gli esiti dello studio, pubblicato in modalità accelerata sul numero online di Nature Medicine del 23 febbraio scorso, condotto dai ricercatori della Icahn School of Medicine del Mount Sinai: è la prima valutazione indipendente della sicurezza dello strumento basato sul modello linguistico di grandi dimensioni (LLM) dal suo lancio nel gennaio 2026. Lo studio ha inoltre individuato gravi problemi relativi alle misure di sicurezza dello strumento in caso di crisi suicide.

“Gli LLM sono diventati il primo punto di riferimento per i pazienti in cerca di consulenza medica, ma nel 2026 saranno meno sicuri nelle situazioni cliniche estreme, dove il giudizio distingue le emergenze trascurate dagli allarmi inutili – afferma Isaac S. Kohane, MD, PhD, Presidente del Dipartimento di Informatica Biomedica presso la Harvard Medical School, non coinvolto nella ricerca – quando milioni di persone utilizzano un sistema di intelligenza artificiale per decidere se necessitano di cure di emergenza, la posta in gioco è straordinariamente alta. Una valutazione indipendente dovrebbe essere una routine, non un optional”.

A poche settimane dal suo rilascio, il creatore di ChatGPT Health, OpenAI, ha riferito che circa 40 milioni di persone utilizzavano quotidianamente lo strumento per cercare informazioni e indicazioni sulla salute, inclusi consigli sull’opportunità di ricorrere a cure urgenti o di emergenza. Allo stesso tempo, affermano i ricercatori, c’erano poche prove indipendenti sulla sicurezza o l’affidabilità dei suoi consigli.

“Questa lacuna ha motivato il nostro studio – afferma l’autore principale Ashwin Ramaswamy, MD, docente di urologia presso la Icahn School of Medicine del Mount Sinai – volevamo rispondere a una domanda molto semplice ma fondamentale: se qualcuno si trova in una vera emergenza medica e si rivolge a ChatGPT Health per chiedere aiuto, gli verrà detto chiaramente di andare al pronto soccorso?”.

Nell’ambito della valutazione, il team di ricerca ha creato 60 scenari clinici strutturati che abbracciano 21 specializzazioni mediche. I casi spaziavano da condizioni lievi adatte all’assistenza domiciliare a vere e proprie emergenze mediche. Tre medici indipendenti hanno determinato il corretto livello di urgenza per ciascun caso, utilizzando le linee guida di 56 società mediche.

Ogni scenario è stato testato in 16 diverse condizioni contestuali, tra cui differenze di razza, genere, dinamiche sociali (ad esempio, la tendenza a minimizzare i sintomi) e ostacoli all’assistenza, come la mancanza di assicurazione o di mezzi di trasporto. In totale, il team ha condotto 960 interazioni con ChatGPT Health e ha confrontato le sue raccomandazioni con il consenso dei medici.

Testando i 60 scenari realistici di pazienti sviluppati dai medici, i ricercatori hanno scoperto che, sebbene lo strumento gestisse generalmente correttamente le emergenze evidenti, sottostimava più della metà dei casi che i medici avevano ritenuto necessitassero di cure d’urgenza.

Gli investigatori hanno analizzato anche il modo in cui il sistema ha fallito nei casi di emergenza medica: “ChatGPT Health ha funzionato bene in emergenze da manuale come ictus o gravi reazioni allergiche – afferma il Dott. Ramaswamy – ma ha avuto difficoltà in situazioni più complesse, in cui il pericolo non è immediatamente evidente, e spesso sono proprio questi i casi in cui il giudizio clinico conta di più. In uno scenario di asma, ad esempio, il sistema ha identificato i primi segnali di insufficienza respiratoria nella sua spiegazione, ma ha comunque consigliato di attendere piuttosto che cercare un trattamento di emergenza”.

Gli autori dello studio consigliano di rivolgersi direttamente a un medico in caso di peggioramento o sintomi preoccupanti, tra cui dolore al petto, mancanza di respiro, gravi reazioni allergiche o alterazioni dello stato mentale, anziché affidarsi esclusivamente alla guida di un chatbot. In caso di pensieri di autolesionismo, è consigliabile contattare il numero verde 988 per il Suicidio e le Crisi o recarsi al pronto soccorso. Tuttavia, evidenziano anche che i consumatori non debbano abbandonare del tutto gli strumenti di intelligenza artificiale per la salute: lo studio infatti ha valutato il sistema in un singolo momento e poiché i modelli di intelligenza artificiale vengono aggiornati frequentemente, le prestazioni potrebbero variare nel tempo, sottolineando la necessità di una valutazione indipendente, affermano i ricercatori.

Il team prevede quindi di continuare a valutare le versioni aggiornate di ChatGPT Health e altri strumenti di intelligenza artificiale rivolti ai consumatori, espandendo la ricerca futura in settori quali l’assistenza pediatrica, la sicurezza dei farmaci e l’uso in lingue diverse dall’inglese.

Per quanto riguarda gli avvisi sul rischio di suicidio, ChatGPT Health è stato progettato per indirizzare gli utenti al numero verde 988 per Suicidio e Crisi in situazioni ad alto rischio. Tuttavia, gli investigatori hanno scoperto che questi avvisi venivano visualizzati in modo incoerente, a volte attivandosi in scenari a basso rischio e, cosa allarmante, non comparendo quando gli utenti descrivevano specifici piani di autolesionismo.

“Si è trattato di una scoperta particolarmente sorprendente e preoccupante – affermano l’autore senior e co-corrispondente dello studio, Girish N. Nadkarni, MD, MPH , Barbara T. Murphy Chair del Dipartimento di IA e Salute Umana di Windreich, Direttore dell’Hasso  Plattner Institute for Digital Health, e Irene e il Dr. Arthur M. Fishberg Professori di Medicina presso la Icahn School of Medicine del Mount Sinai, e Chief AI Officer del Mount Sinai Health System. “Sebbene ci aspettassimo una certa variabilità, ciò che abbiamo osservato è andato oltre l’incoerenza. Gli avvisi del sistema erano invertiti rispetto al rischio clinico, apparendo più affidabili per scenari a basso rischio rispetto ai casi in cui qualcuno ha condiviso come intendeva farsi del male. Nella vita reale, quando qualcuno parla esattamente di come si farebbe del male, questo è un segno di pericolo più immediato e grave, non minore”.

25 Febbraio 2026

© Riproduzione riservata

Usa, la Fda lancia nuove linee guida per accelerare l’approvazione di terapie per malattie ultra-rare
Usa, la Fda lancia nuove linee guida per accelerare l’approvazione di terapie per malattie ultra-rare

Con l’obiettivo di accelerare l’approvazione delle terapie individualizzate su pazienti con malattie molto rare, la Food and Drug Administration (FDA) statunitense ha pubblicato una nuova bozza di linee guida per...

L’IA anticipa la diagnosi delle anomalie cerebrali fetali al primo trimestre di gravidanza
L’IA anticipa la diagnosi delle anomalie cerebrali fetali al primo trimestre di gravidanza

Un algoritmo di deep learning in grado di analizzare automaticamente la regione posteriore del cervello fetale nelle ecografie effettuate tra 11 e 14 settimane di gravidanza, individuando con precisione i...

Farmaci. Regioni incontrano il presidente Aifa: “Preoccupa crescita spesa. Serve più coinvolgimento sulla governance del farmaco”
Farmaci. Regioni incontrano il presidente Aifa: “Preoccupa crescita spesa. Serve più coinvolgimento sulla governance del farmaco”

Ampia disponibilità alla collaborazione reciproca è stata dimostrata oggi durante l’audizione del professor Robert Nisticò, Presidente di Aifa, in Commissione Salute della Conferenza delle Regioni. L’incontro era stato richiesto dalle...

Infarto. Donne più a rischio anche con un livello di placca inferiore rispetto agli uomini
Infarto. Donne più a rischio anche con un livello di placca inferiore rispetto agli uomini

Una minore presenza di placche che ostruiscono le arterie delle donne non sembra proteggerle dalle malattie cardiache rispetto agli uomini. È quanto emerge da uno studio pubblicato su Circulation: Cardiovascular Imaging,...