“Non c’è più bisogno delle case di software per fare i videogiochi!”. “Ora ognuno può farsi il videogioco che vuole!”. Certo, come no. È il discorso ultimamente che è diventato virale tra chi si occupa di AI, e la causa è Google DeepMind, che ha rilanciato con forza l’idea che i videogiochi, così come li conosciamo, possano diventare superflui grazie ai world model generativi, in particolare con la nuova iterazione di Genie 3. Ci sono cascati tutti i “divulgatori di AI” (quelli farlocchi, cioè quasi tutti, perché è un buon guancio per fare views, e probabilmente non avendo mai veramente giocato a un videogioco moderno ci credono pure).
Dunque, la novità non è la generazione di ambienti virtuali (basta mettere un prompt), ma la possibilità di trasformare immagini, brevi video o descrizioni testuali in mondi interattivi esplorabili in tempo reale, presentati come qualcosa che “assomiglia a un videogioco” (basta non giocarci sul serio) e che, nel racconto pubblico, renderebbe non più necessarie software house, motori grafici, sviluppatori, sceneggiatori, e pipeline di sviluppo tradizionali.
Tecnicamente, però, Genie 3 non è un game engine: è un modello predittivo che genera la sequenza visiva successiva in base allo stato corrente e all’input dell’utente. Non esistono sistemi di regole esplicite, logiche di gioco separate, fisica deterministica o stato persistente indipendente dal flusso generativo. L’interattività è una continuità di previsione, non l’esecuzione di un sistema progettato, e ciò che viene mostrato come gioco è in realtà un mondo che si regge finché la previsione locale resta plausibile. Vi faccio un esempio: voi scrivete “creami un ambiente di montagna dove io sono un coniglio di gomma” e Genie 3 vi crea un ambiente esplorabile, fatto molto bene, generando anche il protagonista che avete scelto voi.
Primo piccolo particolare che fa crollare l’entusiasmo facile di chi vive di entusiasmi con l’AI (saranno i primi sostituiti dall’AI): questi sistemi sono ottimizzati per la coerenza locale, non per la stabilità nel tempo. Superata una breve finestra temporale, iniziano a manifestare temporal drift: perdita di identità degli oggetti, trasformazioni non causali degli ambienti, degradazione implicita delle regole fisiche. Applicati all’interazione, questi limiti diventano ancora più evidenti, perché un videogioco richiede memoria lunga, gestione dello stato, coerenza delle conseguenze e reversibilità delle azioni (oltre che una miriade di altre cose). In assenza di una rappresentazione persistente del mondo, l’esperienza resta una previsione continua, suggestiva ma fragile, incapace di sostenere progressione, bilanciamento, fallimento ripetibile e strategia. Potranno essere usati per generare mondi dalle software house? In realtà lo fanno da tempo, solo che fatto questo c’è un immenso lavoro dietro. Il confine tra mondo generato e gioco giocabile resta quindi tecnico, non ideologico. Va bene per Roblox, tanto per capirci, non per un videogioco serio.
E infatti GTA 6, che costa due miliardi e passa, non lo farà mai un’IA (o almeno per molto tempo) e non perché non è abbastanza potente: quella complessità (i videogiochi di oggi) non è un mondo che appare, è un sistema con miliardi di interazioni e possibilità che regge e costa. Se bastasse generare ambienti al volo, GTA 6 lo avremmo già fatto con un prompt (e su Youtube girano tanti video di GTA finti, peccato non siano giocabili), e invece continuiamo a aspettarlo da anni come si aspettano le cose difficili.
Per carità, con Genie 3 potete divertirvi a generare il vostro scenario e camminarci dentro, prima di annoiarvi alla terza passeggiata virtuale. “Fammi essere Heidi e camminare nel mondo di Heidi”. Sorprendente, lo fa subito, così come subito arriva il primo sbadiglio.