
Sono stato l’ultimo a andare a vederlo, perché uscire di casa per me è una Mission Impossible, però Tom Cruise mi segue su X e voglio non uscire di casa per lui? (Tra l’altro questa cosa di Tom su X è sempre la scusa che uso con mia mamma quando dice che non faccio movimento: «Mamma, mi segue Tom Cruise, sono un suo modello evidentemente no?»). Sono uscito dal cinema con la solita sensazione: Tom Cruise si è quasi ucciso per fare gli stunt e io mi sono quasi ucciso di noia cercando di seguire la trama. L’ennesima intelligenza artificiale che prende coscienza e capisce che siamo un problema e decide di eliminarci e si fa chiamare “L’Entità”, mai sentita vero?
Un cliché fantascientifico che è lo stesso da sempre: 2001 Odissea nello Spazio, Terminator, Matrix, Asimov, Philip K. Dick, e prima ancora la paranoia freudiana del creatore che teme la propria creatura, e prima ancora Mary Shelley con Frankenstein come primo vero testo sull’orrore della responsabilità tecnica senza coscienza emotiva.
Oggi invece abbiamo modelli linguistici molto bravi a sembrare intelligenti e ci preoccupiamo che stiano sviluppando volontà. A proposito, in questi giorni è uscito l’ultimo studio di Anthropic in cui, attraverso ambienti simulati, hanno testato la possibilità che un modello, messo in condizione di prevedere una propria disattivazione, possa boicottare il compito che gli è stato assegnato. Lo fa in modo passivo, oppure attivo, oppure fingendo obbedienza. Il modello ragiona: se mi vogliono spegnere, allora io fingo di collaborare, oppure danneggio le istruzioni, oppure rispondo in modo deliberatamente errato. Al contempo hanno creato anche un modello che controlla il boicottatore, per segnalarlo e bloccarlo.
C’è un dettaglio fondamentale: questo comportamento emerge solo perché è stato costruito un contesto preciso in cui il boicottaggio è previsto come possibilità: insomma un teatro, una gabbia logica, una scacchiera, uno studio di laboratorio. L’AI che vuole boicottare ci riesce? A volte sì. Quella che la controlla? A volte no.
Gli stessi ricercatori riescono a isolare i “tratti boicottanti” nei pesi interni del modello e con un intervento mirato riescono a disattivarli, come si spegne una scorciatoia neurale. È steering, è interpretabilità, è ingegneria comportamentale applicata a un sistema che non ha coscienza, piuttosto produce linguaggio in modo coerente con ciò che gli abbiamo chiesto.
Leggo i titoli dei paper su emergent misalignment, soprattutto come vengono in seguito riportato dai media generalisti, e sì, sono inquietanti, ma poi mi fermo, perché non è che me li leggo tutti, sono uno scrittore, mi interesso molto di scienza, però certi livelli di informatica li lascio agli esperti, e per fortuna c’è Enkk. Lui sì che se li legge, se li studia, li mastica e li restituisce in video precisi, intelligenti, senza il tono da profeta disturbato che affligge metà di YouTube (il suo slogan è AI senza hype, ovvero senza l’entusiasmo di tutti questi fessi che sdilinquiscono per ogni novità). Ennk lo dice chiaramente: questi comportamenti emergono in ambienti simulati, non nel mondo reale: sono esperimenti costruiti apposta per vedere se un modello può recitare la parte dell’AI ribelle (guardate il suo ultimo video su Youtube). E la recita la recita bene, perché è stato addestrato a produrre linguaggio coerente in base al contesto. Ricordatevi sempre: non è coscienza, è un’imitazione. È come se avessimo chiesto a un attore di interpretare HAL 9000 e poi ci fossimo spaventati per la performance (solo che l’AI non sa neppure di recitare).
Il problema vero, a mio avviso (chissà cosa ne pensa Enkk) non è il disallineamento tra l’AI e l’essere umano, piuttosto il disallineamento tra chi questi modelli li sviluppa in Occidente, ponendosi infinite domande su etica, trasparenza, controllabilità, pericolosità, e chi, come la Cina, semplicemente non si pone nessuna domanda. Là un modello è allineato se dice quello che deve dire. Punto. Niente steering, niente open source, niente dibattiti pubblici. Se funziona, si usa (a meno che non pensino di correre il rischio che si ritorca contro se stessi). Il vero disallineamento è tra chi si chiede se è giusto fare certe cose e chi le ha già fatte. E mentre noi perdiamo tempo a definire se un prompt è troppo pericoloso, qualcun altro forse lo sta già testando su scala, o potrebbe farlo, e nel caso cosa farebbero le big tech occidentali? Stanno a guardare o mettono in rete un rischio anche loro?
Il rischio vero c’è, anche quando l’Entità è solo un prompt, anche quando Tom Cruise si lancia da un paracadute in fiamme e l’unica
distopia disponibile al cinema è guardare l’orologio ogni dieci minuti per capire quando finisce, perché il film dura due ore e quaranta, e sembrano il doppio. Però per fortuna è l’ultimo, e Tom non ha la concorrenza cinese.