Nuove frontiere

Le allucinazioni dell'AI

Il bot, davanti a una richiesta, inventa una risposta plausibile ma falsa. Lo fa con tono sicuro, voce gentile, struttura convincente, e tendi a credergli, però è fuffa bella e buona

Massimiliano Parente 6 maggio 2025 - 10:50

Vista l’evoluzione dell’intelligenza artificiale negli ultimi due anni, siamo portati a credere che andrà sempre meglio e che ogni nuova versione sia più affidabile, più precisa, più intelligente della precedente, aspettando con trepidazione le nuove versioni. La velocità è stata impressionante, al punto da sorprendere persino i suoi creatori: nessuno di loro, nemmeno i più ottimisti, aveva previsto una diffusione così rapida, una crescita così vertiginosa, e però proprio questa imprevedibilità è il vero nodo: se non sapevano quanto sarebbe cresciuta, non possono sapere neanche quanto (e se) migliorerà davvero. La potenza delle AI raddoppia ogni mese, ok, ma esattamente come?

Il mese scorso, un bot AI usato per l’assistenza clienti di Cursor (una piattaforma per programmatori in rapida ascesa) ha comunicato a diversi utenti un cambiamento importante: da quel momento, usare Cursor su più di un computer sarebbe stato vietato. Niente più flessibilità, niente più multi-dispositivo. Gli utenti si sono infuriati e hanno riempito forum di post indignati e alcuni hanno cancellato l’account in segno di protesta, peccato che tutto questo fosse… inventato.

«Non abbiamo mai introdotto una politica del genere», ha dovuto scrivere su Reddit il CEO Michael Truell. «Si è trattato di una risposta sbagliata da parte di un bot AI di primo livello.» Detto in parole povere: il bot ha sbagliato, ha inventato una regola, ha “allucinato”.

Sì, perché oggi non c’è intelligenza artificiale senza un certo margine di delirio. A più di due anni dall’arrivo di ChatGPT, i bot AI sono ovunque: rispondono ai clienti, scrivono codici, riassumono mail, fanno da tutor agli studenti, eppure a dispetto della loro crescita impressionante non esiste ancora un modo sicuro per garantire che ciò che dicono sia vero.

Il problema ha un nome tecnico: allucinazioni. Cioè: il bot, davanti a una richiesta, inventa una risposta plausibile ma falsa. Lo fa con tono sicuro, voce gentile, struttura convincente, e tendi a credergli, però è fuffa bella e buona. Secondo alcuni test recenti, i nuovi sistemi AI “di ragionamento” (i più avanzati) hanno tassi di allucinazione più alti dei precedenti. Nel test SimpleQA, per esempio, il modello o4-mini di OpenAI ha sbagliato il 79% delle risposte. Quello precedente, o1, si fermava al 44%. Un miglioramento… al contrario.

I motivi non sono del tutto chiari, ma una cosa sì: più i sistemi “pensano”, più sbagliano, e più passaggi mostrano, più confondono. È come chiedere indicazioni a uno che prima ti spiega tutta la storia delle strade, e poi ti manda nella direzione sbagliata, e mentre alcuni usi dell’IA sono innocui (scrivere una mail, riassumere un PDF) altri lo sono molto meno. Se l’IA ti sbaglia il numero di famiglie in Illinois è fastidiosa, se ti sbaglia un dato clinico, legale o aziendale è un problema grosso. Gli errori non sono un’eccezione, sono al momento inevitabili. Perché i sistemi AI non ragionano davvero, non sanno cosa sia vero: calcolano probabilità, producono la frase più plausibilem e ogni tanto, in quel calcolo, il senso precipita.

Nel frattempo, le aziende cercano soluzioni. Si parla di “apprendimento per rinforzo”, di modelli sempre più raffinati, di filtri e controlli, in ogni caso resta un paradosso di fondo: abbiamo creato assistenti digitali che ci aiutano a risparmiare tempo… e ora passiamo il tempo a controllare se hanno detto qualcosa di sensato.

La verità è che stiamo chiedendo a queste intelligenze qualcosa che non possono fare: essere affidabili. Non sono costruite per esserlo. Non distinguono tra realtà e finzione e se oggi un bot può convincerti che hai violato i termini di servizio solo perché ha “intuìto” così, domani potrebbe convincerti che l’Unione Europea ha una capitale chiamata Eurovia, o che tua madre ti ha lasciato in eredità un NFT.

Piccolo aneddoto: domenica è venuto a trovarmi il mio amico Daniele Accapezzato, internista al Policlinico Umberto I e docente di medicina interna, per me è il vero dottor House. L’ho fatto parlare con ChatGPT e gli ha sottoposto un caso clinico reale (non ci ho capito niente, era un paziente con epatite, varie infezioni, insomma un caso complicato).

Ogni volta che Daniele correggeva ChatGPT lei diceva: «Esatto!». «Esatto un cavolo, hai sbagliato». «Scusami…». «Quindi quali farmaci dovrei dare a questo paziente e in che ordine?». Se le avesse dato retta, mi ha detto Daniele, il paziente sarebbe morto.

Commenti

Pubblica un commento

Non sono consentiti commenti che contengano termini violenti, discriminatori o che contravvengano alle elementari regole di netiquette. Qui le norme di comportamento per esteso.

Accedi

Spiacenti, devi abilitare javascript per poter procedere.