Obrázek: Intel
Intel Labs ve spolupráci s Blockade Labs představily Latent Diffusion Model for 3D (LDM3D), nový a první model difúze umělé inteligence, který uživatelům umožňuje vytvářet 3D obrázky s 360stupňovým zobrazením jednoduše prostřednictvím textu. Podle Intelu tento vývoj „revolucionizuje tvorbu obsahu, metaverze a digitální zážitky.“
„Generativní AI technologie má za cíl dále rozšiřovat a zlepšovat lidskou kreativitu a šetřit čas. Většina dnešních generativních modelů umělé inteligence se však omezuje na generování 2D obrázků a jen velmi málo z nich dokáže generovat 3D obrázky z textových výzev. Na rozdíl od stávajících modelů latentní stabilní difúze umožňuje LDM3D uživatelům generovat obrázek a hloubkovou mapu z dané textové výzvy pomocí téměř stejného počtu parametrů. Poskytuje přesnější relativní hloubku pro každý pixel v obrázku ve srovnání se standardními metodami následného zpracování pro odhad hloubky a šetří vývojářům značný čas na vývoj scén.“
Proč It Matters: Uzavřené ekosystémy omezují rozsah. A závazek společnosti Intel ke skutečné demokratizaci AI umožní širší přístup k výhodám AI prostřednictvím otevřeného ekosystému. Jednou z oblastí, která v posledních letech zaznamenala významný pokrok, je oblast počítačového vidění, zejména generativní AI. Mnoho dnešních pokročilých generativních modelů umělé inteligence je však omezeno na generování pouze 2D obrázků. Na rozdíl od existujících difúzních modelů, které obecně generují pouze 2D RGB obrázky z textových výzev, LDM3D umožňuje uživatelům generovat jak obrázek, tak hloubkovou mapu z dané textové výzvy. Pomocí téměř stejného počtu parametrů jako latentní stabilní difúze poskytuje LDM3D přesnější relativní hloubku pro každý pixel v obrázku ve srovnání se standardními metodami následného zpracování pro odhad hloubky.
Tento výzkum by mohl způsobit revoluci v tom, jak interagujeme s digitální obsah tím, že uživatelům umožňuje zažít jejich textové výzvy dříve nepředstavitelným způsobem. Obrázky a hloubkové mapy generované LDM3D umožňují uživatelům přeměnit textový popis klidné tropické pláže, moderního mrakodrapu nebo sci-fi vesmíru na 360stupňové detailní panorama. Tato schopnost zachytit hloubkové informace může okamžitě zlepšit celkový realismus a pohlcení, což umožňuje inovativní aplikace pro průmyslová odvětví od zábavy a her až po interiérový design a seznamy nemovitostí, stejně jako virtuální muzea a pohlcující zážitky z virtuální reality (VR).
Dne 20. června vyhrál LDM3D Cenu za nejlepší plakát na Workshop 3DMV na CVPR.
Jak to funguje: LDM3D bylo trénováno na datové sadě vytvořené z podmnožiny 10 000 vzorků databáze LAION-400M, která obsahuje více než 400 milionů párů obrázků a titulků. K anotaci tréninkového korpusu tým použil model odhadu velké hloubky Dense Prediction Transformer (DPT) (dříve vyvinutý v Intel Labs). Model DPT-large poskytuje vysoce přesnou relativní hloubku pro každý pixel v obrázku. datová sada LAION-400M byla vytvořena pro výzkumné účely, aby umožnila trénink testovacích modelů ve větším měřítku pro široké výzkumník a další zainteresované komunity.
Model LDM3D je trénován na superpočítači Intel AI poháněném procesory Intel Xeon a akcelerátory Intel Habana Gaudi AI. Výsledný model a potrubí kombinují generovaný RGB obraz a hloubkovou mapu a vytvářejí 360stupňové pohledy pro pohlcující zážitky.
Aby demonstrovali potenciál LDM3D, vyvinuli výzkumníci Intel a Blockade DepthFusion, aplikaci, která využívá standardní 2D RGB fotografie a hloubkové mapy k vytvoření pohlcujících a interaktivních 360stupňových pohledů. DepthFusion využívá TouchDesigner, vizuální programovací jazyk založený na uzlech pro interaktivní multimediální obsah v reálném čase, k přeměně textových výzev na interaktivní a pohlcující digitální zážitky. Model LDM3D je jediný model, který vytváří obraz RGB i jeho hloubkovou mapu, což vede k úspoře paměti a zlepšení latence.
Co bude dál: Zavedení LDM3D a DepthFusion dláždí cestu pro další pokroky v multi-view generativní AI a počítačovém vidění. Intel bude pokračovat ve zkoumání využití generativní umělé inteligence k rozšíření lidských schopností a vybudování silného ekosystému výzkumu a vývoje umělé inteligence s otevřeným zdrojovým kódem, který demokratizuje přístup k této technologii. Díky pokračující silné podpoře Intelu pro otevřený ekosystém v AI je LDM3D open source přes HuggingFace. To umožní výzkumníkům a praktikům umělé inteligence tento systém dále vylepšovat a dolaďovat pro vlastní aplikace.
Další kontext: Výzkum společnosti Intel bude prezentován na IEEE/CVF Computer Vision a Konference rozpoznávání vzorů (CVPR) 18.–22. června. Další informace naleznete v části „LDM3D: Model latentní difúze pro 3D“ nebo zobrazit ukázku LDM3D.
Zapojte se do diskuze k tomuto příspěvku na našem fóru…