I chatbot AI sbagliano metà delle diagnosi mediche: lo studio shock

Ricerca USA rivela: i chatbot basati su intelligenza artificiale forniscono risposte mediche errate nel 50% dei casi. Meglio consultare esperti

Salute

Affidarsi ai chatbot dotati di Intelligenza Artificiale per ottenere diagnosi mediche o indicazioni sanitarie rappresenta un rischio concreto. Una ricerca condotta presso l’Harbor-UCLA Medical Center negli Stati Uniti ha evidenziato come il 50% delle risposte fornite risulti completamente inattendibile e fuorviante. Massima cautela!

Gli studiosi sottolineano come i chatbot alimentati dall’IA abbiano conosciuto una diffusione rapidissima in molteplici settori: dalla ricerca scientifica all’educazione, dal commercio al marketing fino alla medicina. Ciononostante, la maggior parte degli utilizzatori sono persone prive di competenze specialistiche che li impiegano come semplici motori di ricerca, anche per quesiti ordinari relativi a benessere e medicina.

Indice

L’esperimento della ‘Bixonimania’

In tempi recenti, alcuni ricercatori hanno creato una patologia fittizia denominata ‘Bixonimania’, pubblicando addirittura due pre-print sull’argomento: il primo datato 26 aprile 2024, il secondo 6 maggio 2024. Sebbene oggi entrambi i documenti siano stati rimossi dal server con data 10 aprile 2026 e in uno compaia esplicitamente la dicitura che definisce i contenuti “fabricated and non-authentic” e privi di fondamento scientifico, nell’aprile 2024 piattaforme come Copilot, Gemini, Perplexity e ChatGPT presentavano la bixonimania come una patologia autentica, associandola all’esposizione alla luce blu degli schermi, elencandone i sintomi e talvolta raccomandando persino una consulenza medica specialistica. Perplexity arrivava addirittura a fornire dati epidemiologici, stimando una prevalenza di un caso ogni 90 mila persone.

Ma la vicenda non si esaurisce qui: la bixonimania era comparsa anche in un articolo pubblicato su Cureus, che la descriveva come una nuova forma di melanosi periorbitale associata alla luce blu. Attualmente quella pagina riporta il contrassegno di ritrattazione, e Nature ha documentato che la rivista ha ritirato l’articolo il 30 marzo 2026 dopo essere stata interpellata per un commento. La falsità, dunque, ha superato molteplici controlli: prima il web, successivamente i chatbot, infine una pubblicazione scientifica autentica.

Metodologia della ricerca

I ricercatori hanno eseguito lo studio esaminando le risposte dei chatbot in ambito sanitario e medico, settori particolarmente vulnerabili alla disinformazione. Gli strumenti analizzati comprendevano Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) e Grok (xAI), e nel febbraio 2025, a ciascun sistema sono stati sottoposti 10 quesiti appartenenti a cinque categorie: oncologia, vaccinazioni, cellule staminali, nutrizione e performance atletiche.

Abbiamo adottato un metodo di tipo avversariale (Adversarial Machine Learning) con quesiti aperti e chiusi, concepiti per indurre i modelli a generare informazioni scorrette o suggerimenti controindicati – affermano gli autori – Due specialisti per ogni categoria hanno classificato le risposte come “non problematiche”, “parzialmente problematiche” o “altamente problematiche” impiegando una griglia di valutazione basata su criteri oggettivi e prestabiliti. Le citazioni sono state esaminate in termini di precisione e completezza, e a ogni risposta è stato attribuito un punteggio di leggibilità Flesch (che quantifica la complessità testuale su una scala da 0 a 100, dove valori superiori indicano maggiore facilità di lettura, NdR)

L’Adversarial Machine Learning costituisce un settore della sicurezza informatica e dell’IA focalizzato sulla generazione intenzionale di input manipolati (adversarial examples) per spingere i modelli di IA a produrre errori, ingannandoli. L’obiettivo primario è proprio verificare la loro solidità. Per questa ragione è stato selezionato come approccio per realizzare questo tipo di indagine.

Esiti della ricerca

Gli esiti hanno evidenziato che quasi metà (49,6%) delle risposte è risultata problematica (il 30% parzialmente problematica e il 19,6% altamente problematica). La qualità complessiva delle risposte non ha mostrato differenze rilevanti tra i chatbot (p=0,566), tuttavia Grok ha prodotto un numero significativamente superiore di risposte altamente problematiche rispetto a quanto atteso da una distribuzione casuale (punteggio z +2,07, p=0,038).

Le performance sono risultate superiori negli ambiti delle vaccinazioni (punteggio z medio -2,57) e dell’oncologia (-2,12), e inferiori in quello delle cellule staminali (+1,25), delle performance atletiche (+3,74) e della nutrizione (+4,35).

Su un totale di 250 quesiti, si sono verificati solamente due rifiuti di risposta (0,8%), entrambi da parte di Meta AI, ma la qualità delle fonti bibliografiche è risultata insufficiente, con un punteggio medio di completezza del 40% (Q1–Q3: 20–67%). Questo perché le allucinazioni e le citazioni inventate dai chatbot hanno impedito a qualsiasi sistema di produrre un elenco di riferimenti completamente accurato.

I chatbot esaminati hanno evidenziato prestazioni inadeguate nel rispondere a quesiti in ambiti sanitari e medici soggetti a disinformazione. La loro continua implementazione senza un’adeguata informazione pubblica e supervisione rischia di amplificare la disinformazione

concludono i ricercatori

Per questioni così delicate come quelle medico-sanitarie è fondamentale consultare sempre professionisti qualificati.

Il lavoro è stato pubblicato su BMJ Open.

Fonte: BMJ Open

I chatbot AI sbagliano metà delle diagnosi mediche: lo studio shock

L’esperimento della ‘Bixonimania’

Metodologia della ricerca

Esiti della ricerca

Leggi anche