O que este vídeo futurista das Olimpíadas diz sobre o estado da IA generativa

Os Jogos Olímpicos e Paralímpicos de Paris acabaram, de modo que as Olimpíadas de Verão de 2028 em Los Angeles parecem distantes. Apesar disso, a perspectiva de assistir aos jogos em sua cidade natal fez Josh Kahn, um cineasta do mundo do entretenimento esportivo que já trabalhou com criação de conteúdo para LeBron James e para o Chicago Bulls, pensar ainda mais no futuro: como seriam as Olimpíadas de Los Angeles no ano 3028?

É o tipo perfeito de exercício criativo para a geração de vídeos com Inteligência Artificial, que se popularizou com a estreia do Sora, da OpenAI, no início deste ano. Digitando prompts em geradores como Runway ou Synthesia, os usuários podem gerar vídeos de alta definição em poucos minutos. É rápido e barato, e apresenta poucas dificuldades técnicas em comparação com técnicas tradicionais, como CGI ou animação. Mesmo que cada quadro não seja perfeito – distorções como mãos com seis dedos ou objetos que desaparecem são comuns –, existem, pelo menos em teoria, várias aplicações comerciais. Agências de publicidade, empresas e criadores de conteúdo podem usar a tecnologia para criar vídeos de forma rápida e barata.

Kahn, que já vem experimentando com ferramentas de vídeo por IA há algum tempo, usou a última versão do Runway para imaginar como seriam as Olimpíadas do futuro, inserindo um novo prompt no modelo para cada tomada. O vídeo tem pouco mais de um minuto e apresenta vistas aéreas impressionantes de uma versão futurista de Los Angeles, onde o nível do mar subiu drasticamente, deixando a cidade comprimida até a costa. Um estádio de futebol está localizado no topo de um arranha-céu, enquanto uma cúpula no meio do porto abriga quadras de vôlei de praia.

O vídeo, compartilhado é menos um roteiro para a cidade e mais uma demonstração do que é possível agora com a Inteligência Artificial.

“Estávamos assistindo às Olimpíadas e vimos o cuidado embutido na narrativa cultural da cidade-sede”, diz Kahn. “Existe uma cultura de imaginação e narrativa em Los Angeles que, de certa forma, definiu o tom para o resto do mundo. Não seria incrível se pudéssemos mostrar como seriam as Olimpíadas se voltassem para LA daqui a mil anos?”

Mais do que qualquer coisa, o vídeo mostra o potencial que a tecnologia generativa pode ter para criadores, mas também revela o que a está impedindo. Embora Kahn tenha se recusado a compartilhar seus prompts para as cenas ou especificar quantos foram necessários para acertar cada tomada, ele advertiu que qualquer pessoa que deseje criar um bom conteúdo com Inteligência Artificial deve estar confortável com tentativa e erro. Um desafio particular em seu projeto futurista foi fazer com que o modelo de IA pensasse fora da caixa em termos de arquitetura. Um estádio flutuando sobre a água, por exemplo, não é algo que a maioria dos modelos generativos tenha encontrado com frequência em seus dados de treinamento.

Com cada tomada exigindo um novo conjunto de prompts, também é complicado garantir uma sensação de continuidade ao longo de um vídeo. Para um modelo de geração assim, é difícil manter a consciência na cor, no ângulo do sol e nas formas dos edifícios. O vídeo também não contém nenhum close de pessoas, o que Kahn diz que os modelos de Inteligência Artificial ainda tendem a ter dificuldades para criar.

“Atualmente, essas tecnologias funcionam melhor em grandes escalas do que em interações humanas mais sutis”, diz ele. Por esse motivo, Kahn imagina que as primeiras aplicações cinematográficas do vídeo gerado por IA podem ser para tomadas amplas de paisagens ou multidões.

Alex Mashrabov, um especialista em vídeo de Inteligência Artificial – que, no ano passado, deixou seu cargo de diretor de IA generativa na Snap para fundar uma nova empresa de vídeos gerados pela tecnologia, chamada Higgsfield AI –, concorda com as falhas atuais dos vídeos de IA. Ele também aponta que criar um bom conteúdo com muito diálogo é difícil com Inteligência Artificial, pois depende de expressões faciais e linguagem corporal sutis.

Alguns criadores de conteúdo podem estar relutantes em adotar esse tipo de vídeo simplesmente pela quantidade de tempo necessária para repetir os prompts até obter o resultado desejado.

“Normalmente, a taxa de sucesso é de uma em 20”, diz Mashrabov, mas não é incomum precisar de 50 ou 100 tentativas.

Entretanto, para muitos propósitos, isso já é suficiente. Mashrabov diz que tem visto um aumento nos anúncios de vídeos gerados por IA de fornecedores grandes, como a Temu. Em países produtores de bens, como a China, os geradores de vídeo tem uma demanda alta para fazer anúncios de vídeo chamativos para produtos específicos com rapidez. E mesmo que um modelo de Inteligência Artificial possa exigir muitos prompts para produzir um anúncio utilizável, filmá-lo com pessoas reais, câmeras e equipamentos pode ser cem vezes mais caro. Aplicações como essa podem ser o primeiro uso do vídeo gerado por IA em larga escala, conforme a tecnologia melhora gradualmente, ele diz.

“Embora eu ache que esse seja um caminho muito longo, estou muito confiante de que existem frutos mais alcançáveis”, diz Mashrabov. “Hoje, estamos descobrindo os gêneros em que a IA generativa já é boa.”

( fonte: MIT Technology Review )