Nuove frontiere

Anthropic studia l’introspezione delle macchine: Claude si osserva, e qualcosa capisce

Uno studio di Anthropic mostra che i modelli di AI possono riconoscere, nel 20% dei casi, quando un’informazione è esterna al loro processo. Una forma primitiva di autoconsapevolezza, ma non di coscienza

Massimiliano Parente 4 novembre 2025 - 16:00

Anthropic studia l’introspezione delle macchine: Claude si osserva, e qualcosa capisce

Molte persone non lo sanno: quando sentono parlare di uno sull’AI danno per scontato siano programmatori che cercano di implementare nuove funzioni, di farle generare immagini e video più realistici (siamo già incasinati così, grazie) e via dicendo. Invece ci sono ricercatori, all’interno delle grandi aziende di intelligenza artificiale, che studiano l’intelligenza artificiale per capire come funziona, e la cosa curiosa è che, per quanto l’abbiamo costruita noi, non lo sappiamo davvero.

Conosciamo l’input e conosciamo l’output, non cosa accade nel mezzo, esattamente come nel cervello umano: sappiamo che un pensiero nasce da un insieme di impulsi elettrici che attraversano miliardi di neuroni interconnessi, che ogni scarica elettrica è un segnale, e che i segnali passano da un neurone all’altro grazie alle sinapsi, dove i neurotrasmettitori chimici aprono o chiudono il passaggio come interruttori. Sappiamo anche che l’attività cerebrale segue schemi riconoscibili: reti che si accendono quando parliamo, altre quando ricordiamo, altre ancora quando immaginiamo. Ciò nonostante non sappiamo come da tutto questo (da un flusso di scariche e molecole) emerga la consapevolezza di un pensiero, o l’esperienza soggettiva di un “io”. (Per i metafisici: sappiamo che senza cervello non esiste un pensiero, così come non c’è AI senza un hardware).

La differenza è che nel caso del cervello parliamo di un prodotto di miliardi di anni di evoluzione biologica, mentre qui parliamo di un oggetto artificiale, costruito da noi e che tuttavia sfugge già alla nostra comprensione. Dentro un modello di linguaggio come Claude o ChatGPT non ci sono neuroni né sinapsi, ci sono miliardi di parametri numerici che si influenzano a vicenda, una rete di pesi matematici che impara a riconoscere schemi linguistici e a riprodurli. Anche qui sappiamo cosa entra e cosa esce, non precisamente come una combinazione di numeri diventi una risposta coerente. In altre parole, abbiamo creato un cervello che funziona e che non capiamo (non che con i nostri simili le cose vadano poi tanto diversamente, spesso quando parlo con qualcuno non capisco se è lui che non capisce e se sono io).

In ogni caso da questa constatazione parte il nuovo studio di Anthropic, intitolato Emergent Introspective Awareness in Large Language Models: ricercatori hanno provato a insegnare ai loro modelli (Claude 2 e Claude 3 Opus) a chiedersi cosa stessero facendo mentre lo facevano. (Detto altrimenti, hanno dato a un’intelligenza artificiale lo stesso compito che uno psicoanalista darebbe a un paziente in crisi: «prova a riflettere su te stesso», tranne quelli da cui sono andato io, i quali dopo quattro o cinque seduti avevano bisogno loro di uno psichiatra).

Il risultato è sorprendente e c’è da riflettere: in circa un quinto dei casi, cioè nel 20 % dei test, il modello è riuscito effettivamente a riconoscere quando un’informazione proveniva da un’iniezione esterna di dati o da un proprio processo interno. Iniettando a un certo punto del flusso del “pensiero” un dato estraneo, l’AI in alcuni casi ha compreso che qualcosa non tornava, e ha persino ammesso che una parte della risposta proveniva da un modulo esterno, come dire “questa frase non è mia”. Una forma di “autocoscienza” primitiva o, più esattamente, una proto-introspezione: non che questo significhi che le macchine hanno una “coscienza”, o capiscano quello che dicono, quantomeno non ancora.

Tant’è che la stessa Anthropic precisa che non si tratta di coscienza, e parla di un meccanismo di auto-debugging cognitivo, una specie di riflesso metacognitivo che serve solo a migliorare l’accuratezza. Non c’è un cogito ergo sum, l’AI non cogita, l’introspezione (termine altrettanto ambiguo, serve per rendere l’idea) è solo statistica: riconosce pattern, non significati. È come se dicesse “questo lo sto inventando io”, senza capire cosa significhi “io”.

Eppure la prospettiva è interessante, tecnologicamente interessante: se un’intelligenza artificiale impara a riconoscere i propri limiti, allora può anche imparare a evitarli, e se impara a dubitare delle proprie risposte, forse un giorno potrà diventare più affidabile di molti esseri umani che non dubitano mai di nulla, e a quel punto, sarà l’intelligenza artificiale a correggere noi (ragione per cui Grokipedia, la Wikipedia di Elon Musk, è partita con il piede sbagliato, con le fonti controllate e rettificate da Grok, come se Grok non assorbisse i bias della rete, cioè di tutta l’umanità scrivente).

Comunque sia è uno studio interessante che sarà approfondito e

permetterà di migliorare le AI e la sua affidabilità, e dimostra che è possibile insegnare alle macchine quando si cerca di ingannarle. Cosa che, a pensarci, non siamo riusciti a fare ancora con la nostra sciagurata specie.

Commenti

Pubblica un commento

Non sono consentiti commenti che contengano termini violenti, discriminatori o che contravvengano alle elementari regole di netiquette. Qui le norme di comportamento per esteso.

Accedi

Spiacenti, devi abilitare javascript per poter procedere.