ChatGPT e Midjourney agora são notícia não apenas na mídia de tecnologia, mas também em outras áreas. Isso pode mudar em breve, já que a próxima grande tecnologia de IA está a caminho. A NVIDIA demonstrou uma nova tecnologia que em breve poderá elevar seus GIFs a novos patamares.
Notícias da semana da Gizchina
Use a tecnologia Text-To-Video da NVIDIA para criar vídeos
Não muito tempo atrás, a NVIDIA lançou um produto interessante chamado VideoLDM. Esse é um modelo de IA para conversão de texto em vídeo. A propósito, a NVIDIA criou essa tecnologia juntando-se a pesquisadores da Cornell University. Em termos simples, esse modelo de IA pode gerar vídeos com resolução de até 2.048 x 1.280 pixels, taxa de quadros de 24 quadros por segundo e tempo de execução de até 4,7 segundos com base no texto.
O modelo usa avanços em difusão estável redes neurais. A solução NVIDIA tem até 4,1 bilhões de parâmetros. Mas apenas 2,7 bilhões foram treinados usando vídeo. Embora você possa pensar que é um número enorme, é pequeno para os padrões atuais de IA.
Além disso, o modelo pode capturar vídeos com cenas de direção. Eles podem durar até 5 minutos e têm resolução de 1024 x 512 pixels. Isso ocorre porque as sequências de direção são difíceis de filmar na vida real. Como resultado, quando se trata de tais momentos, esta tecnologia pode ajudar os cineastas. O modelo pode prever possibilidades de movimento multimodal criando um grande número de missões possíveis a partir de uma única imagem de origem.
No momento, as tecnologias de texto para vídeo, como a introduzida pela NVIDIA, são boas para usar criação de miniaturas e GIFs. Mas sabemos que a NVIDIA está crescendo rapidamente no campo da IA. Portanto, achamos que não demorará muito para que a NVIDIA traga tecnologias mais avançadas para criar clipes de texto para vídeo mais longos.
Este estudo será apresentado na Conferência de Visão de Máquina e Reconhecimento de Padrões, que será realizada em Vancouver de 18 a 22 de junho.
Fonte/VIA: