ChatGPT et Midjourney font désormais l’actualité non seulement dans les médias technologiques, mais également dans d’autres domaines. Cela pourrait bientôt changer puisque la prochaine grande technologie d’IA est en route. NVIDIA a présenté une nouvelle technologie qui pourrait bientôt élever vos GIF vers de nouveaux sommets.
Gizchina News of the week
Utilisez la technologie de synthèse vidéo de NVIDIA pour créer des vidéos
Il n’y a pas si longtemps, NVIDIA a lancé un produit intéressant baptisé VideoLDM. C’est un modèle d’IA pour la conversion texte-vidéo. Soit dit en passant, NVIDIA a créé cette technologie en s’associant à des chercheurs de l’Université Cornell. En termes simples, ce modèle d’IA peut générer des vidéos avec une résolution allant jusqu’à 2048 x 1280 pixels, une fréquence d’images de 24 images par seconde et une durée d’exécution allant jusqu’à 4,7 secondes en fonction du texte.
Le modèle utilise des avancées en diffusion stable les réseaux de neurones. La solution NVIDIA compte jusqu’à 4,1 milliards de paramètres. Mais seuls 2,7 milliards ont été formés à l’aide de la vidéo. Bien que vous puissiez penser que c’est un nombre énorme, il est petit par rapport aux normes d’IA d’aujourd’hui.
De plus, le modèle peut capturer des vidéos avec des scènes de conduite. Ils peuvent durer jusqu’à 5 minutes et avoir une résolution de 1024 x 512 pixels. En effet, les séquences de conduite sont difficiles à filmer dans la vraie vie. Par conséquent, lorsqu’il s’agit de tels moments, cette technologie peut aider les cinéastes. Le modèle peut prévoir les possibilités de mouvement multimodal en créant un grand nombre de missions possibles à partir d’une seule image source.
Pour le moment, les technologies de synthèse vidéo telles que celle introduite par NVIDIA sont utiles pour créer des vignettes et des GIF. Mais nous savons que NVIDIA se développe rapidement dans le domaine de l’IA. Nous pensons donc qu’il ne faudra pas longtemps à NVIDIA pour apporter des technologies plus avancées pour créer des clips texte-vidéo plus longs.
Cette étude sera présentée lors de la conférence Machine Vision and Pattern Recognition, qui se tiendra tenue à Vancouver du 18 au 22 juin.
Source/VIA: