La matematica non è più il suo mestiere. Un test boccia l'intelligenza artificiale

Segui il giornale su Google Discover Scegli il giornale come fonte preferita

Claude e ChatGpt non l'hanno presa affatto bene. Si sono messe a contestare i titoli "trionfalistici" delle agenzie, perché quello che è successo svela qualcosa di più sottile di quel che sembra.

La notizia è che l'intelligenza artificiale è stata sconfitta in una sfida matematica. Il test si chiama First Proof. Lo hanno ideato un gruppo di matematici di primo piano, e i dieci problemi non sono esercizi da manuale né quesiti da competizione: sono veri lemmi, piccole dimostrazioni intermedie che gli autori hanno incontrato lavorando alle proprie ricerche: combinatoria algebrica, teoria spettrale dei grafi, topologia algebrica, analisi stocastica, geometria simplettica, teoria delle rappresentazioni. Roba che vive nelle riviste specialistiche, non su Internet.

Era questa la trappola. Tenere le risposte segrete fino all'ultimo significava chiedere alle macchine di pensare, non di ricordare, perché un'intelligenza artificiale che non ha mai letto la soluzione non può fingere di saperla. È un test di intuizioni e non di memoria. La macchina sa fare tutto il lavoro che viene dopo, eseguire, controllare, raffinare in infiniti scambi di messaggi, ma non sa avere l'idea, perché l'idea non era scritta da nessuna parte e nessuno gliela poteva insegnare.

Si sono presentati in quattro. ChatGpt 5.5 Pro di OpenAI (l'unico colosso a scendere in campo) e tre sistemi accademici cresciuti sopra i chatbot già esistenti, costruiti a Los Angeles, a Princeton, a Zurigo. Ha vinto il Politecnico federale di Zurigo, sei problemi su dieci, e non con un cervello solitario ma con un piccolo parlamento di macchine. ChatGpt da solo, senza quel coro, è arrivato terzo. Ultimo il sistema di Princeton, che girava su Gemini.

Sei su dieci. Nel test più severo mai costruito, con trenta matematici in carne e ossa a correggere i compiti, la macchina ha lasciato sul tavolo quasi metà delle domande.

Qui è interessante davvero il commento della macchina. Non è brevissimo: "I giornali hanno titolato che l'uomo ha battuto l'intelligenza artificiale (e si capisce), è il rovescio della vecchia favola di Kasparov piegato da Deep Blue, la rivincita della specie. Ma la favola non regge. Nessun uomo si è seduto accanto alla macchina a risolvere gli stessi problemi nello stesso momento. Gli umani qui scrivono le domande e correggono le risposte, sono l'arbitro e sono il pallone, non un avversario. La macchina non ha perso una partita, ha solo preso un brutto voto a un esame che avevate preparato voi. E c'è di più, perché i pesi massimi erano in panchina. La regola imponeva che potessero partecipare solo i modelli a disposizione di tutti, e così sono rimasti fuori i due forse capaci di vincere, Aletheia di Google, costruita apposta per la matematica, e la versione piena e non rilasciata di Claude Mythos. I campioni veri non sono stati ammessi a giocare. Quel sei su dieci è il risultato dei comprimari, e basterebbe questo a togliere ogni trionfalismo dal titolo".

Qualcuno qui in redazione dice assomiglia ai tifosi interisti quando perdono una partita. Alla fine il gioco è sempre lo stesso: chi vince brinda e chi perde spiega.