Cosa dice questo futuristico video delle Olimpiadi sullo stato dell’intelligenza artificiale generativa

I Giochi Olimpici e Paralimpici di Parigi sono finiti, quindi le Olimpiadi estive del 2028 a Los Angeles sembrano lontane. Nonostante ciò, la prospettiva di guardare le partite nella sua città natale ha spinto Josh Kahn, regista nel mondo dell’intrattenimento sportivo che ha lavorato alla creazione di contenuti per LeBron James e i Chicago Bulls, a pensare ancora di più al futuro: a come sarebbero le Olimpiadi come Los Angeles nell’anno 3028?

È il tipo perfetto di esercizio creativo per la generazione di video AI, diventato popolare con il debutto di Sora di OpenAI all’inizio di quest’anno. Digitando le istruzioni in generatori come Runway o Synthesia, gli utenti possono generare video ad alta definizione in pochi minuti. È veloce ed economico e presenta poche difficoltà tecniche rispetto alle tecniche tradizionali come la CGI o l’animazione. Anche se ogni fotogramma non è perfetto – distorsioni come mani a sei dita o oggetti che scompaiono sono comuni – ci sono, almeno in teoria, diverse applicazioni commerciali. Agenzie pubblicitarie, aziende e creatori di contenuti possono utilizzare la tecnologia per creare video in modo rapido ed economico.

Kahn, che da tempo sperimenta strumenti video basati sull’intelligenza artificiale, ha utilizzato l’ultima versione di Runway per immaginare come sarebbero le Olimpiadi del futuro, inserendo un nuovo prompt nel modello per ogni scatto. Il video dura poco più di un minuto e presenta splendide vedute aeree di una versione futuristica di Los Angeles, dove il livello del mare è aumentato drammaticamente, lasciando la città schiacciata verso la costa. In cima a un grattacielo si trova uno stadio di calcio, mentre una cupola al centro del porto ospita campi da beach volley.

Il video, condiviso è meno una tabella di marcia per la città e più una dimostrazione di ciò che è ora possibile con l’intelligenza artificiale.

“Stavamo guardando le Olimpiadi e abbiamo visto l’attenzione incorporata nella narrativa culturale della città ospitante”, afferma Kahn. “C’è una cultura dell’immaginazione e della narrazione a Los Angeles che, in un certo senso, ha dato il tono al resto del mondo. Non sarebbe fantastico se potessimo mostrare come sarebbero le Olimpiadi se tornassero a Los Angeles tra mille anni?

Più di ogni altra cosa, il video mostra il potenziale che la tecnologia generativa può avere per i creatori, ma rivela anche cosa la trattiene. Anche se Kahn ha rifiutato di condividere le sue indicazioni per le scene o di specificare quante fossero necessarie per ottenere ogni ripresa corretta, ha avvertito che chiunque voglia creare buoni contenuti con l’intelligenza artificiale dovrebbe sentirsi a proprio agio con tentativi ed errori. Una sfida particolare nel loro progetto futuristico è stata far sì che il modello di intelligenza artificiale pensasse fuori dagli schemi in termini di architettura. Uno stadio galleggiante sull’acqua, ad esempio, non è qualcosa che la maggior parte dei modelli generativi ha riscontrato frequentemente nei propri dati di addestramento.

Poiché ogni ripresa richiede una nuova serie di istruzioni, è anche complicato garantire un senso di continuità in tutto il video. Per un modello generazionale come questo è difficile restare consapevoli del colore, dell’angolazione del sole e delle forme degli edifici. Il video inoltre non contiene primi piani di persone, cosa che secondo Kahn i modelli di intelligenza artificiale tendono ancora a faticare a creare.

“Attualmente, queste tecnologie funzionano meglio su larga scala che nelle interazioni umane più sottili”, afferma. Per questo motivo, Kahn immagina che le prime applicazioni cinematografiche dei video generati dall’intelligenza artificiale potrebbero riguardare riprese ampie di paesaggi o folle.

L’esperto di video AI Alex Mashrabov, che l’anno scorso ha lasciato il suo ruolo di direttore dell’intelligenza artificiale generativa presso Snap per fondare una nuova società di video generati dalla tecnologia chiamata Higgsfield AI, è d’accordo con gli attuali difetti dell’intelligenza artificiale dei video. Sottolinea inoltre che creare buoni contenuti con molti dialoghi è difficile con l’intelligenza artificiale, poiché dipende da sottili espressioni facciali e dal linguaggio del corpo.

Alcuni creatori di contenuti potrebbero essere riluttanti ad adottare questo tipo di video semplicemente a causa della quantità di tempo necessaria per ripetere le istruzioni finché non ottengono il risultato desiderato.

“In genere la percentuale di successo è di uno su 20”, afferma Mashrabov, ma non è raro che siano necessari 50 o 100 tentativi.

Tuttavia, per molti scopi, questo è sufficiente. Mashrabov afferma di aver notato un aumento degli annunci video generati dall’intelligenza artificiale da grandi fornitori come Temu. Nei paesi produttori di beni come la Cina, i generatori di video sono molto richiesti per realizzare rapidamente annunci video accattivanti per prodotti specifici. E anche se un modello di intelligenza artificiale può richiedere molti suggerimenti per produrre uno spot utilizzabile, filmarlo con persone, telecamere e attrezzature reali può essere cento volte più costoso. Applicazioni come questa potrebbero rappresentare il primo utilizzo su larga scala dei video generati dall’intelligenza artificiale man mano che la tecnologia migliora gradualmente, afferma.

“Anche se penso che questa sia una strada molto lunga, sono molto fiducioso che si potranno ottenere più frutti”, afferma Mashrabov. “Oggi stiamo scoprendo i generi in cui l’intelligenza artificiale generativa è già brava”.

( fonte: MIT Technology Review )