圖片:英特爾
英特爾實驗室與 Blockade Labs 合作推出了 3D 潛在擴散模型 (LDM3D),這是一種全新的業界首創的AI擴散模型,讓用戶只需通過文本即可創建360度視圖的3D圖像。據英特爾稱,這一發展將“徹底改變內容創建、元宇宙和數字體驗。”
“生成式人工智能技術旨在進一步增強和增強人類創造力並節省時間。然而,當今大多數生成式 AI 模型僅限於生成 2D 圖像,只有極少數可以根據文本提示生成 3D 圖像。與現有的潛在穩定擴散模型不同,LDM3D 允許用戶使用幾乎相同數量的參數從給定的文本提示生成圖像和深度圖。與用於深度估計的標准後處理方法相比,它為圖像中的每個像素提供了更準確的相對深度,並為開發人員節省了大量開發場景的時間。”
來自 英特爾新聞稿:
為什麼重要的是: 封閉的生態系統限制了規模。英特爾對人工智能真正民主化的承諾將使人們能夠通過開放的生態系統更廣泛地享受人工智能的好處。近年來取得重大進展的一個領域是計算機視覺領域,特別是在生成人工智能領域。然而,當今許多先進的生成式人工智能模型僅限於生成 2D 圖像。與通常僅根據文本提示生成 2D RGB 圖像的現有擴散模型不同,LDM3D 允許用戶根據給定的文本提示生成圖像和深度圖。與深度估計的標准後處理方法相比,LDM3D 使用與潛在穩定擴散幾乎相同數量的參數,為圖像中的每個像素提供更準確的相對深度。
這項研究可能會徹底改變我們與物體交互的方式。數字內容,使用戶能夠以以前難以想像的方式體驗文本提示。 LDM3D 生成的圖像和深度圖使用戶能夠將寧靜的熱帶海灘、現代摩天大樓或科幻宇宙的文字描述轉變為 360 度詳細的全景圖。這種捕獲深度信息的能力可以立即增強整體真實感和沈浸感,從而為從娛樂和遊戲到室內設計和房地產列表以及虛擬博物館和沈浸式虛擬現實 (VR) 體驗等行業的創新應用提供支持。
6 月 20 日,LDM3D 在CVPR 的 3DMV 研討會。
工作原理:LDM3D 在由 10,000 個樣本的子集構建的數據集上進行訓練LAION-400M 數據庫,其中包含超過 4 億個圖像標題對。該團隊使用密集預測變壓器 (DPT) 大深度估計模型(之前由英特爾實驗室開發)來註釋訓練語料庫。 DPT-large 模型為圖像中的每個像素提供高精度的相對深度。 LAION-400M 數據集是為了研究目的而構建的,以便能夠更大規模地測試模型訓練以供廣泛使用研究人員和其他感興趣的社區。
LDM3D 模型在由英特爾至強處理器和英特爾 Habana Gaudi AI 加速器提供支持的英特爾 AI 超級計算機上進行訓練。生成的模型和管道將生成的 RGB 圖像和深度圖結合起來,生成 360 度視圖,實現沉浸式體驗。
為了展示 LDM3D 的潛力,英特爾和 Blockade 研究人員開發了 DepthFusion,這是一款利用標準 2D RGB 的應用程序照片和深度圖可創建身臨其境的交互式 360 度視圖體驗。 DepthFusion 利用 TouchDesigner(一種用於實時交互式多媒體內容的基於節點的可視化編程語言)將文本提示轉變為交互式沉浸式數字體驗。 LDM3D 模型是用於創建 RGB 圖像及其深度圖的單一模型,從而節省內存佔用並改善延遲。
下一步: LDM3D 和深度圖的引入DepthFusion 為多視圖生成人工智能和計算機視覺的進一步發展鋪平了道路。英特爾將繼續探索使用生成式人工智能來增強人類能力,並建立一個強大的開源人工智能研發生態系統,使該技術的使用更加民主化。繼續英特爾對人工智能開放生態系統的大力支持,LDM3D 正在通過 HuggingFace 開源。這將使人工智能研究人員和從業者能夠進一步改進該系統,並針對自定義應用程序對其進行微調。
更多背景信息: 英特爾的研究成果將在 IEEE/CVF 計算機視覺大會上展示和模式識別會議 (CVPR) 6 月 18 日至 22 日。有關更多信息,請參閱“LDM3D:3D 潛在擴散模型”或查看LDM3D 演示。
在我們的論壇上加入本文的討論…