Scienze e Tecnologia

Cos’è Dall-E, l’intelligenza artificiale che trasforma il testo in immagini

Nonostante sia ancora acerba, Dall-E si sta guadagnano un proprio spazio e il dibattito che genera non è sempre entusiastico. Cosa c’è da sapere

Cos’è Dall-E, l’intelligenza artificiale che trasforma il testo in immagini

Si chiama Dall-E, è un’Intelligenza artificiale (AI) sviluppata da OpenAI, laboratorio dedito alla ricerca co-fondato da Elon Musk, che crea immagini partendo da descrizioni testuali.

Descrivendo a parole ciò che si desidera vedere, una rete neurale darà vita all’immagine evocata. Si può descrivere qualsiasi cosa attingendo alla fantasia o alla realtà.

La rete neurale artificiale su cui si appoggia Dall-E elabora il linguaggio naturale e interpreta. Un esempio è l’immagine di apertura di questo articolo. A sinistra il dipinto Ragazza col turbante (conosciuto anche come Ragazza con l’orecchino di perla) di Jan Vermeer, a destra la ricostruzione fatta da Dall-E ascoltando le istruzioni di chi l’ha descritto a voce.

Le critiche

Al pari di molte altre tecniche AI, anche Dall-E sembra portarsi dietro i pregiudizi e le discriminazioni, anche di concetto, tipiche dell’uomo. Nel caso specifico, descrivendo una figura umana (maschile o femminile che sia) viene quasi sempre restituita l’immagine di persone caucasiche a meno che non vi siano ritratti atleti o atlete.

Se le istruzioni vocali fanno riferimento a professioni di elevato livello sociale (medici, scienziati, astronauti, eccetera) l’immagine restituita ritrae quasi sempre un uomo.

Niente di nuovo, insomma, le AI in genere condividono accuse simili: lavorano con dati che necessitano di quella che, in gergo, viene chiamata etichettatura. Nel caso del trattamento delle immagini un’IA non ha idea di che cosa rappresenti una fotografia fino a quando non viene istruita. L’etichettatura rientra nelle istruzioni e questo vuole dire che un’IA non potrà mai capire che nella fotografia che sta esaminando c’è un polso con un orologio, fino a quando non le si sono mostrate le fotografie di un polso e quelle di un orologio.

Nel caso di Dall-E la fase di istruzione ha un peso particolare, giacché riconosce soltanto la lingua inglese e, dati alla mano, dimostra di avere bisogno di una gamma più ampia di aggettivi e pronomi personali per identificare meglio i generi.

Le critiche mosse a Dall-E, come detto, sono molto simili se non del tutto identiche a quelle mosse alle IA che lavorano con le immagini. Tutto questo non toglie praticamente nulla al loro potenziale e diventeranno sempre più diffuse nella società digitale. Gli aspetti etici e legali delle IA sono però oggetto di continue domande e questo è un bene. I problemi che risolviamo oggi sono problemi in meno che saremo chiamati a risolvere domani.

Dall-E risale al 2021 e lo scorso mese di aprile è stata presentata Dall-E 2, evoluzione della versione originale che non è ancora disponibile al pubblico, le immagini che si trovano in rete sono create dai ricercatori impegnati nel progetto e da pochi altri eletti, per poterla provare con mano in futuro occorre iscriversi a una lista d’attesa.

Le politiche di OpenAi escludono l’uso di termini volgari, violenti, discriminatori e illegali.

Le interpretazioni delle parole, però sono tutt’altra cosa rispetto ai loro significati.

Commenti