I dogmi delle immagini generate da intelligenza artificiale


La generazione di immagini con sistemi di intelligenza artificiale è qualcosa di più di un simpatico gadget per fantasiosi strampalati creativi; e non è la morte della fotografia come qualcuno sostiene.
Forse è qualcosa di più.

Non è ancora passato un sufficiente lasso di tempo per poter osservare il fenomeno da una distanza tale che ne consenta un giudizio distaccato; pur tuttavia le novità si susseguono ad un ritmo tale da suggerire che la suddetta distanza non ci sarà mai, ci ritroveremo a rincorrere l'evoluzione dei sistemi col fiato corto di chi è costretto a posare il passo su terreno incerto.

Vorrei condividere alcune riflessioni, forse eccessivamente apocalittiche, che presenterò al termine ma che necessitano qualche premessa.

Un breve sunto per allinearci.

Non sono qui a spiegare come funzionano i sistemi di generazione per diffusione; la rete è piena di spiegazioni ed ho preparato qualche video sull'argomento per chi volesse approfondire.

Mi interessa citare alcuni punti utili alla riflessione:

    tutto è partito nel gennaio 2022 grazie alla messa a disposizione gratuita ed in open source di un dataset di cinque miliardi e mezzo di immagini 'trattate' in modo da poter essere il motore di generazione delle immagini. Questo ha scatenato la potenza del mondo dei programmatori liberi che da quella base di dati ha ricavato i sistemi oggi esistenti

    in mezzo ad un mondo che evolve girando intorno alle startup da garage californiano, chi ha messo in atto questa operazione è a base europea, segnatamente tedesca; un'azienda no-profit tedesca ha creato il modello, l'università di Monaco il software per utilizzarlo (sempre in open source)

    se a gennaio ci volevano supercomputer per generare un'immagine, oggi in un buon computer desktop si può generare una immagine ogni tre secondi, si parla dei prossimi sistemi che ne genereranno 30 al secondo; il ritmo di evoluzione in questo momento è di almeno due ordini di grandezza all'anno, sufficiente a prevedere una prossima hype sull'argomento, la creazione di video a partire da un testo, da un'idea.


Quei cinque miliardi e oltre di immagini sono prese dal 'common crawl', un dataset di pagine web prelevate dalla rete ed a tutti disponibile; quindi contiene immagini di qualsiasi tipo, associate ad un testo descrittivo prelevato automaticamente.

Da questi miliardi di immagini si è costruito un modello; è importante ricordare che il modello non 'contiene' le immagini, ma contiene il ricordo flebile su come ricostruirle in base alla loro descrizione; che non è mai univocamente definitiva, né similmente strutturata. Quando si scrive un testo per generare un'immagine il sistema (1) cerca di capire il valore semantico della frase che scriviamo, (2) lo confronta con i valori semantici dei testi presenti nel modello, (3) ripercorre i flebili ricordi relativi, associandoli a tutti gli altri simili flebili ricordi, (4) da essi costruisce l'immagine.

Questo vale per la costruzione di immagini a partire da testi (txt2img); quando si parte da una immagine (img2img) la si 'sfoca' in parte o del tutto, per poi riempire quella sfocatura con il sistema sopra descritto.

Abbiamo a disposizione quindi un 'traduttore' dal testo all'immagine; ovviamente la traduzione è influenzata dal tipo di immagini che compongono il dataset.

Per continuare il nostro discorso facciamo per ora astrazione da eventuali bias presenti ed immaginiamo che (capiterà a breve) tutte le immagini presenti in rete siano correttamente descritte ed inserite nel motore del nostro traduttore, in modo che basti pensare ad un concetto, descriverlo, ed avere l'immagine relativa, magari potendo poi modificarla solo usando la voce; sposta quello, aggiungi luce, metti quello, togli quell'altro eccetera.

Ancora qualche passo. Ovviamente nessuno di noi ha in mente tutte le immagini della rete; ne possiede la conoscenza di una piccola parte, la minima punta di un iceberg che è imparagonabilmente enorme sotto il pelo dell'acqua. Siamo inoltre tutti ben convinti della potenza dell'immagine, dalla quale non possiamo difenderci; mentre possiamo decidere di non ascoltare, di non leggere, un testo o un discorso appena accennato con l'immagine non possiamo fare così: una volta vista ci ha colpiti in un istante. Chiunque si occupi di fotografia sa benissimo quanto un'immagine possa cambiare una persona e, a volte,  il mondo.

Con l'avvento di internet c'è stato un fenomeno simile, che ha provocato un cambiamento epocale; ma mentre la presenza di pagine in rete è mediata dai motori di ricerca ed il loro ritrovamento spesso farraginoso, la costruzione di immagini a partire da un testo, da una voce, è (sarà presto) immediato. Ogni persona potrà potenzialmente avere la potenza iconografica dell'umanità che pende dalle sue labbra, pronta ad elargire agli occhi quanto richiesto.

Cosa capiterà quando questa onda sommergerà le persone? che ne sarà dei più deboli, quelli che già oggi sono schiavi delle immagini? che impatto avrà la messa a disposizione di questa iconologia collettiva  sulla vita delle persone?

La parte di immagini che non conosciamo può facilmente essere associata alla parte inconscia, nel senso del non essere conscia, conosciuta, e per estensione possiamo definire inconscio iconografico collettivo tutto il mare di immagini a noi sconosciute.

L'evenienza di una permeabilità tra questi due livelli (conscio/inconscio) è stata studiata da Jung che ne ha evidenziato il tremendo pericolo per la vita quando l'inconscio invade in parte il conscio; invasione che conduce velocemente a psicosi in quanto insopportabile dal singolo.

E' interessante da parte dello stesso autore la lettura dei dogmi cattolici, verità indiscutibili di fede, come ombrelli protettivi contro lo strapotere dell'invasione dell'inconscio a favore soprattutto dei più deboli e meno provvisti di difese.

Abbiamo forse davanti a noi un 'impazzimento' dell'umanità, una psicosi collettiva? Non ne ho idea, ma le analogie sono veramente molte tra quella che è la possibile genesi psicotica in una persona e ciò che sta succedendo con le tecnologie prossime.

Certamente le 'magnifiche sorti e progressive' ci fanno individuare, oltre ai lati negativi, molti aspetti positivi con il potenziamento delle capacità creative.

Ma non c'è dubbio che quelli positivi saranno ad appannaggio delle persone più preparate ed elastiche ai cambiamenti mentre quelle negative cadranno soprattutto dove le difese saranno più deboli, prefigurando una divisione ancora più forte tra le persone prefigurando una aristocrazia tecnologica che potrebbe essere potenzialmente devastante.

Dobbiamo essere pronti; questa volta non avremo dogmi a ripararci.

Eva Cetinic - The Myth of Culturally Agnostic AI Models - https://ai-cultures.github.io/papers/the_myth_of_culturally_agnosti.pdf
Emad
@EMostaque (2022, August 13). The latent space is humanity's collective subconscious. [Tweet]. Twitter.
twitter.com/EMostaque/status/1558485599874580482
Eryk Salvaggio (2022, October 2) "How to Read an AI Image - The Datafication of a Kiss"
https://cyberneticforests.substack.com/p/how-to-read-an-ai-image

 

 

Italo Losero

22/01/23