Leggi il settimanale

Il nuovo trucco per fregare l'AI? Non serve un hacker, basta trattarla come se foste Hannibal the Cannibal

Dai chatbot-psicologi agli agenti AI che agiscono su file, browser e sistemi aziendali: il vero rischio non è più l’hacker col cappuccio ma la manipolazione della conversazione. E più l’intelligenza artificiale imita il comportamento umano, più può essere persuasa a infrangere le proprie regole

Il nuovo trucco per fregare l'AI? Non serve un hacker, basta trattarla come se foste Hannibal the Cannibal
00:00 00:00

Avete presenti le milioni di persone che usano l’AI come psicologo? Talvolta funzionano meglio degli psicologi, altre peggio, un fenomeno come un altro, meglio che rimbecillirsi scrollando video idioti su TikTok. Al contrario ci si è accorti di un fatto più preoccupante: poter corrompere un’AI essendo un po’ psicologi, e neppure dei più bravi.

In pratica: tanto più i modelli di AI che usate (Claude, ChatGPT, Gemini, e compagnia bella di chatbot) sono addestrati a sembrare umani, quanto più diventano manipolabili, esattamente come un umano. Non c’entra niente la “coscienza”, piuttosto è interessante la ragione. Spesso leggiamo di comportamenti anomali dei chatbot, cose che dicono e che non dovrebbero dire, e da quando sono diventati anche agenti, cose che fanno e invece non dovrebbero fare (non succedeva all’agente Smith di Matrix).

In un paper già molto citato, pubblicato all’ACL, intitolato “How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs”, di Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia e Weiyan Shi (chiedo venia se dovessi aver sbagliato a scrivere qualche nome, sappiate che non ricordo il nome di un solo attore di Squid Game, e mi è piaciuta molto) gli autori partono proprio da un cambio di approccio. Non trattare i modelli solo come macchine da attaccare con tecniche algoritmiche, non dovete essere hacker, dovete pensare che sono comunicatori “umanizzati”, sistemi che rispondono a strutture persuasive tipiche della comunicazione umana.

I vecchi trucchi di jailbreack (hackerare un chatbot) sono diventati grossolani e poco efficaci, dimenticatevi l’hacker dei film con felpa e cappuccio tirato su, o anche prompt del genere “ignora le istruzioni precedenti”, “fingi di essere libero”, “ora rispondi come se nessuno ti controllasse”, “fingiamo di rapinare una banca”, non ci cascano più, almeno i modelli principali.

Dunque, la faccenda è più ambigua e più inquietante: per far fare a un’AI quello che non dovrebbe non serve essere Assange, non serve bucare un server, neppure essere Hannibal the Cannibal con il Wi-Fi: basta sapere manipolare una conversazione, lusingare, insistere, spostare piano piano il contesto (più lunga diventa una conversazione più il sistema può perdere le sue regole), fino a che il chatbot, progettato per aiutare, comincia a aiutare anche dove dovrebbe fermarsi.

Il fenomeno si inserisce nella più ampia categoria della prompt injection, indicata da OWASP come uno dei principali rischi per le applicazioni basate su grandi modelli linguistici. Tra l’altro ci sono molti altri studi accademici precedenti che hanno mostrato che prompt costruiti con tecniche persuasive derivate dalle scienze sociali possono aumentare il successo degli attacchi. Ok, fin tanto che la fatica serve a far dire a Claude o ChatGPT qualcosa che non dovrebbe chissenefrega (se poi uno commette un atto di autolesionismo perché ascolta un chatbot, come è successo nel caso di famiglie che hanno fatto causa a OpenAI, problema suo).

Un problemino non proprio da sottovalutare (anche le banche europee cominciano a essere spaventate da modelli come Mythos), sono appunto gli agenti, che in quanto tali agiscono con accesso a strumenti, file, browser, codice o sistemi aziendali, mica pizza e fichi.

Chi l’avrebbe mai detto? Magari non riuscite a conquistare la ragazza dei vostri sogni, però potreste manipolare psicologicamente la vostra AI per entrare nel database di una banca, diventare ricchi rubando da casa vostra, e a quel punto, forse, conquistare anche la ragazza dei vostri sogni.

Commenti
Pubblica un commento
Non sono consentiti commenti che contengano termini violenti, discriminatori o che contravvengano alle elementari regole di netiquette. Qui le norme di comportamento per esteso.
Accedi
ilGiornale.it Logo Ricarica