Molte persone non lo sanno: quando sentono parlare di uno sull’AI danno per scontato siano programmatori che cercano di implementare nuove funzioni, di farle generare immagini e video più realistici (siamo già incasinati così, grazie) e via dicendo. Invece ci sono ricercatori, all’interno delle grandi aziende di intelligenza artificiale, che studiano l’intelligenza artificiale per capire come funziona, e la cosa curiosa è che, per quanto l’abbiamo costruita noi, non lo sappiamo davvero.
Conosciamo l’input e conosciamo l’output, non cosa accade nel mezzo, esattamente come nel cervello umano: sappiamo che un pensiero nasce da un insieme di impulsi elettrici che attraversano miliardi di neuroni interconnessi, che ogni scarica elettrica è un segnale, e che i segnali passano da un neurone all’altro grazie alle sinapsi, dove i neurotrasmettitori chimici aprono o chiudono il passaggio come interruttori. Sappiamo anche che l’attività cerebrale segue schemi riconoscibili: reti che si accendono quando parliamo, altre quando ricordiamo, altre ancora quando immaginiamo. Ciò nonostante non sappiamo come da tutto questo (da un flusso di scariche e molecole) emerga la consapevolezza di un pensiero, o l’esperienza soggettiva di un “io”. (Per i metafisici: sappiamo che senza cervello non esiste un pensiero, così come non c’è AI senza un hardware).
La differenza è che nel caso del cervello parliamo di un prodotto di miliardi di anni di evoluzione biologica, mentre qui parliamo di un oggetto artificiale, costruito da noi e che tuttavia sfugge già alla nostra comprensione. Dentro un modello di linguaggio come Claude o ChatGPT non ci sono neuroni né sinapsi, ci sono miliardi di parametri numerici che si influenzano a vicenda, una rete di pesi matematici che impara a riconoscere schemi linguistici e a riprodurli. Anche qui sappiamo cosa entra e cosa esce, non precisamente come una combinazione di numeri diventi una risposta coerente. In altre parole, abbiamo creato un cervello che funziona e che non capiamo (non che con i nostri simili le cose vadano poi tanto diversamente, spesso quando parlo con qualcuno non capisco se è lui che non capisce e se sono io).
In ogni caso da questa constatazione parte il nuovo studio di Anthropic, intitolato Emergent Introspective Awareness in Large Language Models: ricercatori hanno provato a insegnare ai loro modelli (Claude 2 e Claude 3 Opus) a chiedersi cosa stessero facendo mentre lo facevano. (Detto altrimenti, hanno dato a un’intelligenza artificiale lo stesso compito che uno psicoanalista darebbe a un paziente in crisi: «prova a riflettere su te stesso», tranne quelli da cui sono andato io, i quali dopo quattro o cinque seduti avevano bisogno loro di uno psichiatra).
Il risultato è sorprendente e c’è da riflettere: in circa un quinto dei casi, cioè nel 20 % dei test, il modello è riuscito effettivamente a riconoscere quando un’informazione proveniva da un’iniezione esterna di dati o da un proprio processo interno. Iniettando a un certo punto del flusso del “pensiero” un dato estraneo, l’AI in alcuni casi ha compreso che qualcosa non tornava, e ha persino ammesso che una parte della risposta proveniva da un modulo esterno, come dire “questa frase non è mia”. Una forma di “autocoscienza” primitiva o, più esattamente, una proto-introspezione: non che questo significhi che le macchine hanno una “coscienza”, o capiscano quello che dicono, quantomeno non ancora.
Tant’è che la stessa Anthropic precisa che non si tratta di coscienza, e parla di un meccanismo di auto-debugging cognitivo, una specie di riflesso metacognitivo che serve solo a migliorare l’accuratezza. Non c’è un cogito ergo sum, l’AI non cogita, l’introspezione (termine altrettanto ambiguo, serve per rendere l’idea) è solo statistica: riconosce pattern, non significati. È come se dicesse “questo lo sto inventando io”, senza capire cosa significhi “io”.
Eppure la prospettiva è interessante, tecnologicamente interessante: se un’intelligenza artificiale impara a riconoscere i propri limiti, allora può anche imparare a evitarli, e se impara a dubitare delle proprie risposte, forse un giorno potrà diventare più affidabile di molti esseri umani che non dubitano mai di nulla, e a quel punto, sarà l’intelligenza artificiale a correggere noi (ragione per cui Grokipedia, la Wikipedia di Elon Musk, è partita con il piede sbagliato, con le fonti controllate e rettificate da Grok, come se Grok non assorbisse i bias della rete, cioè di tutta l’umanità scrivente).
Comunque sia è uno studio interessante che sarà approfondito e
permetterà di migliorare le AI e la sua affidabilità, e dimostra che è possibile insegnare alle macchine quando si cerca di ingannarle. Cosa che, a pensarci, non siamo riusciti a fare ancora con la nostra sciagurata specie.