ChatGPT 和 Midjourney 現在不僅在科技媒體而且在其他領域都成為新聞。這可能很快就會改變,因為下一個大型 AI 技術即將問世。 NVIDIA 演示了一項新技術,可能很快將您的 GIF 提升到新的高度。
Gizchina 本週新聞
使用 NVIDIA 的文本到視頻技術創建視頻
不久前,NVIDIA 釋放 一個名為 VideoLDM 的有趣產品。這是一個用於文本到視頻轉換的 AI 模型。順便說一下,NVIDIA 與康奈爾大學的研究人員攜手創造了這項技術。簡單來說,這個 AI 模型可以生成分辨率高達 2048 x 1280 像素、幀速率為每秒 24 幀、基於文本的運行時長可達 4.7 秒的視頻。
該模型使用穩定擴散方面的進步神經網絡。 NVIDIA 解決方案擁有多達 41 億個參數。但只有 27 億人接受過視頻培訓。儘管您可能認為這是一個巨大的數字,但以當今的 AI 標準來看,這個數字很小。
此外,該模型還可以捕捉帶有駕駛場景的視頻。它們可持續長達 5 分鐘,分辨率為 1024 x 512 像素。這是因為駕駛序列很難在現實生活中拍攝。因此,當涉及到這樣的時刻時,這項技術可以幫助電影製作人。該模型可以通過從單個源圖像創建大量可能的任務來預測多模態運動的可能性。
目前,文本到視頻技術(如 NVIDIA 引入的技術)非常適合用於創建縮略圖和 GIF。但我們知道,英偉達在人工智能領域的發展速度很快。因此,我們猜測 NVIDIA 用不了多久就會帶來更先進的技術來創建更長的文本到視頻剪輯。
這項研究將在機器視覺和模式識別會議上發表,該會議將於6月18日至22日在溫哥華舉行。
來源/VIA: