OpenAI cria ferramenta de vídeos com inteligência artificial

A OpenAI anunciou um novo modelo de inteligência artificial generativa, que transforma texto em vídeo, capaz de gerar sequências bem realistas de até um minuto a partir de uma descrição. Ele foi apelidado Sora, em referência à palavra japonesa que significa céu.

Atualmente, o Sora está disponível apenas para equipes que avaliam o modelo para potenciais danos e riscos. No seu blog de comunidade, a OpenAI disse que a capacidade da ferramenta de “simular o mundo real” é fundamental para o avanço da AGI (Inteligência Artificial Geral), uma IA autodidata.

0:00

/0:17

Descrição que gerou esse vídeo: “Um trailer de filme com as aventuras do homem espacial de 30 anos usando um capacete de moto de malha de lã vermelha, céu azul, deserto de sal, estilo cinematográfico, filmado em filme 35 mm, cores vivas”. Imagem: OpenAI.

FUNÇÕES. O Sora pode criar “cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo”, diz um post no blog de comunidade da OpenAI.

Como mostra a pesquisa técnica do modelo, algumas das principais habilidades do Sora são:

Estender vídeos para frente ou para trás no tempo;
Animar imagens estatísticas;
Criar transições entre dois vídeos;
Manter pessoas, animais e objetos em diferentes distâncias no vídeo;
Simular processos artificiais, como videogames;
Detalhamento das interações com objetos (como marcas de mordida em vídeos onde alguém está comendo).

0:00

/0:09

Descrição que gerou esse vídeo: “Em um salão histórico ornamentado, um enorme maremoto atinge o pico e começa a cair. Dois surfistas, aproveitando o momento, navegam habilmente pela face da onda”. Imagem: OpenAI.

Sobre a simulação de videogames, é de se pensar o quanto de transmissões falsas com IA irão começar a surgir na Twitch ou outras plataformas de gamers quando uma ferramenta dessas for lançada ao público.

0:00

/0:20

Imagem: OpenAI.

LIMITAÇÕES. O modelo sabe criar uns vídeos bem legais, mas, segundo a pesquisa da OpenAI, ele ainda tem dificuldades de entender detalhes simples ou direções básicas — como esquerda e direita — ou a física de interações básicas — como coisas quebrando. Uma limitação que nem sempre é frequente, mas ainda existe, é criar vídeos com base em descrições precisas de eventos que acontecem ao longo de um certo tempo, segundo a empresa.

0:00

/0:08

Vídeo da OpenAI feito com o Sora mostrando um copo esquisito quebrando. Imagem: OpenAI

SEGURANÇA. Na semana passada, a OpenAI começou a adicionar metadados às imagens geradas por suas ferramentas, incluindo o DALL-E, para facilitar a identificação de conteúdo produzido artificialmente. A empresa afirmou que incorporará esses metadados ao Sora, caso o modelo seja implementado em algum de seus produtos.

O modelo segue as políticas estabelecidas pela OpenAI, recusando solicitações que envolvam violência, conteúdo sexual e outras proibições. A empresa também está colaborando com artistas visuais, designers e cineastas, oferecendo-lhes acesso para receber sugestões sobre como aprimorar o produto, embora os nomes dessas pessoas não tenham sido divulgados.