Bild: Intel
Intel Labs har i samarbete med Blockade Labs introducerat Latent Diffusion Model for 3D (LDM3D), en ny och branschens första AI-diffusionsmodell som låter användare skapa 3D-bilder med 360-gradersvyer helt enkelt genom text. Enligt Intel kommer denna utveckling att”revolutionera innehållsskapande, metaversitet och digitala upplevelser.”
“Generativ AI-teknik syftar till att ytterligare förstärka och förbättra mänsklig kreativitet och spara tid. Men de flesta av dagens generativa AI-modeller är begränsade till att generera 2D-bilder och endast mycket få kan generera 3D-bilder från textmeddelanden. Till skillnad från befintliga latent stabila diffusionsmodeller tillåter LDM3D användare att generera en bild och en djupkarta från en given textprompt med nästan samma antal parametrar. Det ger mer exakt relativt djup för varje pixel i en bild jämfört med vanliga efterbearbetningsmetoder för djupuppskattning och sparar utvecklare avsevärd tid att utveckla scener.”
Från en Intel pressmeddelande:
Varför Det spelar roll: Stängda ekosystem begränsar skalan. Och Intels engagemang för verklig demokratisering av AI kommer att möjliggöra bredare tillgång till fördelarna med AI genom ett öppet ekosystem. Ett område som har sett betydande framsteg under de senaste åren är inom datorseende, särskilt inom generativ AI. Men många av dagens avancerade generativa AI-modeller är begränsade till att endast generera 2D-bilder. Till skillnad från befintliga diffusionsmodeller, som i allmänhet bara genererar 2D RGB-bilder från textuppmaningar, tillåter LDM3D användare att generera både en bild och en djupkarta från en given textprompt. Genom att använda nästan samma antal parametrar som latent stabil diffusion ger LDM3D mer exakt relativt djup för varje pixel i en bild jämfört med vanliga efterbearbetningsmetoder för djupuppskattning.
Denna forskning kan revolutionera hur vi interagerar med digitalt innehåll genom att göra det möjligt för användare att uppleva sina textuppmaningar på tidigare ofattbara sätt. Bilderna och djupkartorna som genereras av LDM3D gör det möjligt för användare att förvandla textbeskrivningen av en fridfull tropisk strand, en modern skyskrapa eller ett sci-fi-universum till ett 360-graders detaljerat panorama. Denna förmåga att fånga djup information kan omedelbart förbättra den övergripande realismen och fördjupningen, vilket möjliggör innovativa tillämpningar för industrier som sträcker sig från underhållning och spel till inredningsdesign och fastighetslistor, såväl som virtuella museer och uppslukande virtuell verklighet (VR)-upplevelser.
Den 20 juni vann LDM3D Bästa affischutmärkelse vid 3DMV-workshop på CVPR.
Så fungerar det: LDM3D tränades på en datamängd som konstruerats från en delmängd av 10 000 prover av databasen LAION-400M, som innehåller över 400 miljoner bildtextpar. Teamet använde Dense Prediction Transformer (DPT) djupuppskattningsmodell (tidigare utvecklad vid Intel Labs) för att kommentera utbildningskorpusen. DPT-large-modellen ger mycket exakt relativt djup för varje pixel i en bild. LAION-400M-dataset har byggts för forskningsändamål för att möjliggöra testning av modellträning i större skala för breda forskare och andra intresserade samhällen.
LDM3D-modellen tränas på en Intel AI-superdator som drivs av Intel Xeon-processorer och Intel Habana Gaudi AI-acceleratorer. Den resulterande modellen och pipeline kombinerar genererad RGB-bild och djupkarta för att generera 360-gradersvyer för uppslukande upplevelser.
För att demonstrera potentialen hos LDM3D utvecklade Intel och Blockade-forskare DepthFusion, en applikation som utnyttjar standard 2D RGB foton och djupkartor för att skapa uppslukande och interaktiva 360-graders vyupplevelser. DepthFusion använder TouchDesigner, ett nodbaserat visuellt programmeringsspråk för interaktivt multimediainnehåll i realtid, för att förvandla textmeddelanden till interaktiva och uppslukande digitala upplevelser. LDM3D-modellen är en enda modell för att skapa både en RGB-bild och dess djupkarta, vilket leder till besparingar på minnesfotavtryck och förbättringar av latens.
Vad är nästa steg: Introduktionen av LDM3D och DepthFusion banar väg för ytterligare framsteg inom multi-view generativ AI och datorseende. Intel kommer att fortsätta att utforska användningen av generativ AI för att utöka mänskliga förmågor och bygga ett starkt ekosystem av forskning och utveckling av öppen källkod för AI som demokratiserar tillgången till denna teknik. LDM3D fortsätter med Intels starka stöd för öppna ekosystem inom AI, och LDM3D är öppen källkod via HuggingFace. Detta kommer att göra det möjligt för AI-forskare och-utövare att förbättra detta system ytterligare och finjustera det för anpassade applikationer.
Mer sammanhang: Intels forskning kommer att presenteras på IEEE/CVF Computer Vision och Pattern Recognition Conference (CVPR) 18-22 juni. För mer information, se “LDM3D: Latent Diffusion Model for 3D” eller se LDM3D-demon.
Gå med i diskussionen om detta inlägg på våra forum…