Descubra detalhes da ferramenta de IA que vem impactando a internet, desde o seu anúncio. E mais: confira outras plataformas que também geram vídeos realistas.
Quando os geradores de imagem com Inteligência Artificial (IA) começaram a ser anunciados, o público, de modo geral, ficou surpreso com a capacidade e a simplicidade com que as ferramentas funcionavam.
Como as IAs não param de avançar, recentemente, o público foi impactado, mais uma vez, com o resultado do trabalho de outra ferramenta: dessa vez, um gerador de vídeos realistas.
Chamado de Sora, essa ferramenta cria vídeos a partir de comandos de texto e, apesar de ainda não estar disponível para o público-geral, já deixou claro que tem potencial para influenciar o mercado audiovisual.
Se você quer saber mais sobre o Sora, neste artigo vamos explicar como ele funciona; quais são as suas limitações; quem tem acesso à ferramenta; qual base de dados foi usada para criá-lo; quais são as suas preocupações com segurança; e, também, listaremos outras três ferramentas que prometem gerar vídeos tão bons quanto o Sora.
O que é Sora
“Sora é um modelo de IA que pode criar cenas realistas e imaginativas a partir de instruções de texto”. É isso o que diz o site da nova ferramenta desenvolvida pela OpenAI, mesma empresa responsável pelo ChatGPT, que ainda não está disponível para o público-geral, mas está impactando a internet desde o seu anúncio, em fevereiro deste ano.
Transformar texto em vídeo não é exatamente a novidade que o Sora está trazendo para o mundo, afinal, outras ferramentas já fazem isso. Contudo, a qualidade dos vídeos gerados pelo modelo impressionam e, por isso, ele tem chamado a atenção e despertado a curiosidade das pessoas.
Os vídeos, que podem ter até 60 segundos, têm uma grande riqueza de detalhes, possuem movimentos de câmeras complexos, reproduzem bem as imagens do mundo físico e geram personagens que expressam emoções.
Essas características demonstram que o Sora tem um avançado sistema de inteligência artificial, que interpreta com precisão instruções que são dadas e traduz ideias abstratas em imagens realísticas e com alta qualidade. O modelo, que também consegue fazer vídeos a partir de uma imagem estática, ainda está em fase de testes, mas tem potencial para influenciar a indústria do audiovisual.
Como funciona o Sora
O tech brand leader da EBAC, Pedro Brocaldi, nos ajuda a entender como o Sora funciona. “Essa é uma ferramenta que, dentro do universo da IA, se classifica como uma IA generativa. Isso significa que o Sora é capaz de criar algo novo. Outras plataformas também fazem parte desse grupo, como é o caso do ChatGPT e dos geradores de imagens, Midjourney e DALL-E. A produção de vídeo é, realmente, bem mais complexa do que gerar texto e imagem, mas a ideia por trás é a mesma dessas outras ferramentas”, conta.
Para ter o público ter uma ideia do que o Sora é capaz de fazer, a OpenAI já disponibilizou alguns vídeos em seu site, no seu canal no YouTube e, também, em seu perfil no X (antigo Twitter) que foram gerados pelo modelo e os seus respectivos prompts (conjunto de palavras que ajuda a Inteligência Artificial generativa a criar o conteúdo). Abaixo, um vídeo de 10 minutos que mostra algumas das criações do modelo:
Por enquanto, os vídeos gerados pelo Sora não possuem áudio, mas há chances de que essa funcionalidade seja implementada futuramente, assim como opções de edição, o que poderá aumentar o realismo das cenas.
Quais as limitações do Sora
Embora a qualidade dos vídeos impressione, a OpenAI diz, em seu site, que o “modelo atual ainda pode ser melhorado”. A empresa conta que o Sora pode encontrar dificuldade para fazer a simulação da física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo: um biscoito pode não mostrar uma marca depois que um personagem o morde.
A empresa ainda disse que o Sora pode confundir detalhes espaciais incluídos em um prompt, como distinguir a esquerda da direita ou ter dificuldade com descrições precisas de eventos que se desenrolam ao longo do tempo, como trajetórias específicas de câmeras.
Quem tem acesso ao Sora
Apesar de já termos amostras da capacidade da plataforma, ela ainda não pode ser usada pelo público-geral – pelo menos até a data de publicação deste artigo.
De acordo com o site, hoje, o Sora está disponível para red teamers, que são pessoas que avaliam a vulnerabilidade da plataforma e a testam para ver se ela é segura, se está protegida e se é confiável.
A OpenAi também está concedendo acesso a artistas visuais, designers e cineastas para obter feedback sobre como aprimorar o modelo para que seja mais útil para profissionais criativos.
“Estamos compartilhando o progresso de nossa pesquisa com antecedência para começar a trabalhar e receber feedback de pessoas de fora da OpenAI e para dar ao público uma ideia dos recursos de IA que estão no horizonte”, diz o site.
Em entrevista ao The Wall Street Journal, em março, a diretora de tecnologia da empresa, Mira Murati, apontou que o lançamento do Sora poderá acontecer ainda em 2024. Para acessá-lo, porém, será necessário pagar. Não se sabe ao certo quanto o usuário terá que desembolsar, mas, de acordo com Murati, o valor pode ser parecido com o da plataforma DALL-E.
Qual base de dados foi usada para criar o Sora
Para gerar os vídeos, antes de tudo, o Sora teve que passar por um treinamento: analisar muitos outros vídeos que já existem para aprender a identificar objetos e ações e, assim, criar cenas seguindo uma linha do tempo e adicionar detalhes a cada frame.
Mas não se sabe ao certo quais foram esses “muitos outros vídeos”. Na mesma entrevista para o The Wall Street Journal, Murati apenas disse que foram usados “dados públicos e licenciados” e confirmou o uso de conteúdo da Shutterstock, com a qual tem parceria.
Murati não soube dizer, porém, se o treinamento do Sora incluiu vídeos que estão publicados em plataformas como YouTube, Instagram e Facebook.
Preocupação com a segurança do conteúdo gerado pelo Sora
Ao mesmo tempo que o Sora desperta a curiosidade de parte da sociedade e nos faz pensar sobre o que ela é capaz de gerar, há uma preocupação, também, com o tipo de conteúdo que será produzido quando o público-geral tiver acesso a ela.
É por conta disso que a OpenAI, antes de disponibilizar a ferramenta, diz que vai tomar várias medidas de segurança importantes. “Estamos trabalhando com red teamers – especialistas em áreas como desinformação, conteúdo odioso e preconceito – que testarão o modelo de forma adversa”, diz o site.
A OpenAI também conta que está criando ferramentas para ajudar a detectar conteúdo enganoso, como um recurso que pode dizer quando um vídeo foi gerado pelo Sora. Além disso, a empresa diz que o classificador de texto da plataforma vai verificar e rejeitar entradas de texto que violem as políticas de uso da empresa, como as que solicitam violência extrema, conteúdo sexual, imagens de ódio, semelhança com celebridades ou IP de terceiros.
“Também desenvolvemos classificadores de imagem robustos que são usados para analisar os quadros de cada vídeo gerado para ajudar a garantir que ele esteja em conformidade com nossas políticas de uso, antes de ser exibido ao usuário”, diz o site.
Além disso, a empresa ainda afirma que está envolvendo profissionais, como educadores e artistas de todo o mundo, para entender suas preocupações e identificar casos de uso positivos para essa tecnologia.
“Apesar de extensas pesquisas e testes, não podemos prever todas as formas benéficas que as pessoas usarão nossa tecnologia, nem todas as formas que as pessoas abusarão dela. É por isso que acreditamos que aprender com o uso no mundo real é um componente essencial para criar e liberar sistemas de IA cada vez mais seguros ao longo do tempo”, finaliza.
Outras IAs que fazem vídeos realistas, além do Sora
A OpenAI surpreendeu o mundo quando anunciou o Sora, mas a empresa não é mais a única a ter uma ferramenta que gera vídeos realistas. Algumas de suas concorrentes são:
A chinesa Kuaishou, responsável pelo Kwai, lançou a Kling AI, sua plataforma que cria vídeos a partir de textos. Por enquanto, a empresa disponibilizou a Kling AI em uma versão demo para pessoas que estavam em uma fila de espera, na China.
Apesar do seu acesso restrito, vídeos gerados pela plataforma já chamaram a atenção por conta da sua qualidade, assim como aconteceu com a Sora. Inclusive, em uma característica, pelo menos, a Kling AI já ultrapassou a Sora: a plataforma chinesa promete criar vídeos de até dois minutos. A Sora, por sua vez, consegue gerar vídeos de até um minuto.
A empresa já disponibilizou em seu canal do YouTube algumas amostras do que a ferramenta é capaz de fazer. Confira aqui.
A Luma AI, agora, também faz parte das empresas que desenvolveram um novo modelo de IA para gerar vídeos realistas. O Dream Machine, que já pode ser testado gratuitamente, cria vídeos de até cinco segundos, a partir de prompts de texto ou imagens estáticas.
“O Dream Machine entende como as pessoas, os animais e os objetos interagem com o mundo físico. Isso permite que você crie vídeos com grande consistência de personagens e física precisa”, diz o site. Veja aqui exemplos do que a ferramenta é capaz de fazer.
Outro grande concorrente do Sora é o Veo, a nova IA para gerar vídeo do Google. “Ele gera vídeos de alta qualidade, com resolução de 1080p, que podem ultrapassar um minuto, em uma ampla variedade de estilos cinematográficos e visuais”, diz o site.
A ferramenta só está disponível para criadores selecionados, mas quem quiser entrar na lista de espera para testar o Veo, é possível se inscrever aqui. Ainda de acordo com o site, no futuro, alguns recursos do Veo serão levados para o YouTube Shorts e outros produtos.
Inteligência Artificial para Negócios
Sabia que a EBAC lançou recentemente o curso “Inteligência Artificial para Negócios”? Em dois meses, você vai adquirir o conhecimento e as habilidades necessárias para aumentar a produtividade e os resultados do seu negócio por meio do uso da tecnologia do momento.
No curso, você vai ter aula com especialistas como o advogado, professor, pesquisador e membro efetivo da OAB, Thiago Ferrarezi; a professora de Ciência de Dados, IA e IoT, Poliana Ferreira; e o arquiteto e especialista em design generativo pela UNICAMP, Filipe Campos. Ficou interessado? Clique aqui para saber mais!
Receba artigos do blog, acompanhe as últimas notícias da EBAC e fique por dentro das novidades!