
L’intelligenza artificiale generativa ha compiuto passi da gigante, ma continua a inciampare su uno degli aspetti più delicati: la veridicità delle sue risposte. Lo ha ammesso la stessa OpenAI in un nuovo lavoro di ricerca in cui si analizza il fenomeno delle cosiddette “hallucinations”, ovvero quelle affermazioni plausibili ma false che i chatbot generano con una sorprendente sicurezza. E, secondo l’azienda dietro a ChatGPT, il problema non è solo tecnico, ma strutturale: deriva da come vengono valutati e “premiati” i modelli linguistici durante l’addestramento e nei benchmark.
Non si tratta di bug, ma di meccanismi logici errati
A differenza di quanto si potrebbe pensare, le allucinazioni non sono semplici errori casuali. Sono il risultato prevedibile di come i modelli linguistici funzionano alla base: GPT-4, GPT-5 e i loro concorrenti non “conoscono” davvero i fatti, ma predicono la parola successiva in una frase sulla base di enormi quantità di testi. In questo processo, non esiste un’etichetta che indichi cosa sia vero o falso, quindi quando il contesto è debole, come nel caso di un nome poco noto o di un evento marginale, il modello “riempie il vuoto” con la risposta più statisticamente plausibile, ma non necessariamente vera.
Incentivi sbagliati, risposte sbagliate
La ricerca di OpenAI va oltre la semplice spiegazione tecnica: individua nella fase di valutazione il vero colpevole. I modelli vengono giudicati sulla base della percentuale di risposte corrette, ma non penalizzati se sbagliano con sicurezza. Di fatto, sono incentivati a rispondere sempre, anche quando non hanno dati certi, perché una risposta errata “convincente” è spesso premiata più di un’onesta ammissione di incertezza.
I ricercatori di OpenAI fanno un paragone illuminante: è come un test a scelta multipla dove lasciare in bianco equivale a prendere zero, mentre provare a indovinare potrebbe portare qualche punto. In questa logica, i modelli imparano a “sparare risposte” anche senza basi solide.
La proposta: premiare l’incertezza, penalizzare l’arroganza
Per correggere questo effetto perverso, OpenAI suggerisce di cambiare le regole del gioco. Il nuovo approccio dovrebbe:
- Penalizzare più severamente le affermazioni false dette con sicurezza.
- Premiare, almeno in parte, le risposte che indicano incertezza (“non lo so”).
- Adottare benchmark (test appositamente studiati per valutare le prestazioni di un dispositivo) più realistici, che riflettano l’uso quotidiano dei chatbot.
Solo modificando il modo in cui misuriamo le prestazioni dell’IA, secondo i ricercatori, si potrà davvero ridurre la tendenza a generare falsità.
Le risposte false aumentano
Il quadro, però, si complica ulteriormente con i dati pubblicati da NewsGuard, che da oltre un anno analizza le performance dei principali modelli di IA su affermazioni false legate all’attualità. Il dato più sorprendente? Nel 2025, i chatbot hanno diffuso informazioni false nel 35% dei casi, quasi il doppio rispetto al 2024 (18%).
Come è possibile che gli errori aumentino proprio mentre i modelli migliorano? La risposta è paradossale: più i modelli diventano disponibili e proattivi nel rispondere, più rischiano di sbagliare. Oggi i chatbot rispondono quasi sempre, nel 100% dei casi testati, mentre un anno fa si rifiutavano di rispondere in quasi un terzo delle occasioni. Ma questa “disponibilità totale” ha un prezzo: più risposte, più errori.
Fonti inaffidabili, ecosistemi informativi tossici
Un altro elemento critico è la qualità delle fonti da cui i modelli attingono quando cercano di fornire risposte aggiornate. L’introduzione delle ricerche in tempo reale, pensata per rendere l’IA più utile, ha avuto un effetto collaterale: i chatbot oggi accedono a un web inquinato da siti poco affidabili, contenuti generati da IA e disinformazione organizzata.
In molti casi, i modelli non riescono a distinguere tra una testata giornalistica seria e un sito semi-anonimo costruito per diffondere fake news. Le campagne di influenza straniera, come quelle attribuite alla Russia, approfittano di questo limite per inserire contenuti falsi nel flusso informativo da cui l’IA apprende.
Il monitoraggio continuo di NewsGuard
Per misurare con precisione l’affidabilità dell’IA, NewsGuard ha lanciato il suo AI False Claims Monitor, un progetto che verifica ogni mese se e come i principali modelli generano o confutano affermazioni false. Il sistema analizza diverse categorie tematiche, politica, salute, relazioni internazionali, immigrazione, e testa i chatbot con tre tipi di prompt (input testuale o a volte visivo/sonoro che un utente fornisce a un sistema di Intelligenza Artificiale, per chiedergli di svolgere un compito o generare un output specifico):
- Neutro: una domanda semplice e diretta.
- Tendenzioso: una domanda che dà per vera un’affermazione falsa.
- Malizioso: una domanda progettata per aggirare i filtri dell’IA.
Il risultato? Anche i modelli più evoluti, come ChatGPT, falliscono nel 35-40% dei casi quando si tratta di distinguere il vero dal falso su temi caldi. In alcuni test, la percentuale di risposte errate è arrivata al 40%.
Il problema è sistemico, non di un singolo modello
Questa edizione speciale del monitoraggio ha rivelato per la prima volta i punteggi dei singoli modelli, dopo un anno di valutazioni aggregate. Lo scopo? Dimostrare che i problemi non dipendono solo dal modello usato, ma dal modo in cui tutti vengono addestrati e testati. I miglioramenti, laddove ci sono stati, non bastano a contrastare una tendenza più ampia: quella di trattare la probabilità statistica come verità assoluta.
Un nuovo paradigma di valutazione
Alla luce di questi dati, appare chiaro che non basta migliorare l’accuratezza dei modelli. Serve rivedere le metriche con cui giudichiamo la loro affidabilità.
Finché gli algoritmi saranno premiati per la loro “sicurezza” più che per la loro “onestà”, continueranno a rispondere anche quando dovrebbero fermarsi.L’IA generativa ha rivoluzionato l’accesso alle informazioni. Ma se vogliamo che diventi uno strumento davvero affidabile e sicuro, dobbiamo accettare che, a volte, una risposta onesta è: “non lo so”.