Kuva: Intel
Intel Labs on yhteistyössä Blockade Labsin kanssa esitellyt Latent Diffusion Model for 3D (LDM3D), uuden ja alan ensimmäinen tekoäly diffuusiomalli, jonka avulla käyttäjät voivat luoda 3D-kuvia 360 asteen näkymistä yksinkertaisesti tekstin avulla. Intelin mukaan tämä kehitys”mullistaa sisällöntuotannon, metaversumien ja digitaaliset kokemukset.”
“Generatiivisen tekoälytekniikan tavoitteena on lisätä ja parantaa ihmisten luovuutta ja säästää aikaa. Useimmat nykypäivän generatiiviset tekoälymallit rajoittuvat kuitenkin 2D-kuvien luomiseen, ja vain harvat voivat luoda 3D-kuvia tekstikehotteista. Toisin kuin olemassa olevat piilevät vakaat diffuusiomallit, LDM3D antaa käyttäjille mahdollisuuden luoda kuvan ja syvyyskartan annetusta tekstikehotteesta käyttämällä lähes samaa parametrien määrää. Se tarjoaa tarkemman suhteellisen syvyyden kuvan jokaiselle pikselille verrattuna tavanomaisiin syvyyden arvioinnin jälkikäsittelymenetelmiin ja säästää kehittäjiltä merkittävästi aikaa otosten kehittämiseen.”
Lähetä Intelin lehdistötiedote:
Miksi Sillä on merkitystä: Suljetut ekosysteemit rajoittavat mittakaavaa. Ja Intelin sitoutuminen tekoälyn todelliseen demokratisointiin mahdollistaa laajemman pääsyn tekoälyn etuihin avoimen ekosysteemin kautta. Yksi alue, jolla on nähty merkittäviä edistysaskeleita viime vuosina, on tietokonenäön alalla, erityisesti generatiivisessa tekoälyssä. Monet nykypäivän kehittyneistä generatiivisista tekoälymalleista rajoittuvat kuitenkin vain 2D-kuvien luomiseen. Toisin kuin olemassa olevat diffuusiomallit, jotka yleensä luovat vain 2D RGB-kuvia tekstikehotteista, LDM3D antaa käyttäjille mahdollisuuden luoda sekä kuvan että syvyyskartan annetusta tekstikehotteesta. LDM3D käyttää lähes samaa määrää parametreja kuin piilevä stabiili diffuusio, ja se tarjoaa tarkemman suhteellisen syvyyden kuvan jokaiselle pikselille verrattuna tavanomaisiin syvyyden arvioinnin jälkikäsittelymenetelmiin.
Tämä tutkimus saattaa mullistaa vuorovaikutuksen digitaalista sisältöä tarjoamalla käyttäjille mahdollisuuden kokea tekstikehotteet aiemmin käsittämättömillä tavoilla. LDM3D:n luomien kuvien ja syvyyskarttojen avulla käyttäjät voivat muuttaa seesteisen trooppisen rannan, modernin pilvenpiirtäjän tai scifi-universumin tekstikuvauksen 360 asteen yksityiskohtaiseksi panoraamakuvaksi. Tämä kyky kaapata syvyystietoja voi välittömästi parantaa yleistä realismia ja uppoamista, mikä mahdollistaa innovatiiviset sovellukset viihteestä ja pelaamisesta sisustussuunnitteluun ja kiinteistöjen listauksiin sekä virtuaalimuseoihin ja mukaansatempaaviin virtuaalitodellisuuteen (VR).
LDM3D voitti 20. kesäkuuta parhaan julisteen palkinnon 3DMV-työpaja CVPR:ssä.
Kuinka se toimii: LDM3D koulutettiin tietojoukolla, joka rakennettiin 10 000 näytteen osajoukosta LAION-400M-tietokannasta, joka sisältää yli 400 miljoonaa kuva-tekstiparia. Tiimi käytti Dense Prediction Transformer (DPT) laajan syvyysarviointimallia (aiemmin Intel Labsissa kehitetty) merkintöjen tekemiseen koulutusaineistoon. DPT-large-malli tarjoaa erittäin tarkan suhteellisen syvyyden kuvan jokaiselle pikselin pisteelle. LAION-400M-tietojoukko on rakennettu tutkimustarkoituksiin mahdollistamaan laajamittaisen testausmallikoulutuksen tutkija ja muut kiinnostuneet yhteisöt.
LDM3D-malli on koulutettu Intelin AI-supertietokoneella, joka toimii Intel Xeon-prosessoreilla ja Intel Habana Gaudin AI-kiihdyttimillä. Tuloksena oleva malli ja putki yhdistävät tuotetun RGB-kuvan ja syvyyskartan 360 asteen näkymien luomiseksi mukaansatempaaviin kokemuksiin.
LDM3D:n potentiaalin osoittamiseksi Intel-ja Blockade-tutkijat kehittivät DepthFusion-sovelluksen, joka hyödyntää standardia 2D RGB:tä. valokuvia ja syvyyskarttoja luodaksesi mukaansatempaavia ja interaktiivisia 360 asteen katselukokemuksia. DepthFusion hyödyntää TouchDesigneria, solmupohjaista visuaalista ohjelmointikieltä reaaliaikaiseen interaktiiviseen multimediasisältöön, muuttaakseen tekstikehotteet interaktiivisiksi ja mukaansatempaaviksi digitaalisiksi kokemuksiksi. LDM3D-malli on yksi malli, jolla voidaan luoda sekä RGB-kuva että sen syvyyskartta, mikä säästää muistia ja viivettä.
Mitä seuraavaksi: LDM3D:n käyttöönotto ja DepthFusion tasoittaa tietä uusille edistyksille monen näkymän generatiivisessa tekoälyssä ja tietokonenäössä. Intel jatkaa kartoittavan tekoälyn käytön tutkimista ihmisten kykyjen lisäämiseksi ja vahvan avoimen lähdekoodin tekoälytutkimuksen ja-kehityksen ekosysteemin rakentamiseksi, joka demokratisoi pääsyn tähän teknologiaan. Jatkaen Intelin vahvaa tukea avoimelle ekosysteemille tekoälyssä, LDM3D on avoin lähdekoodi HuggingFacen kautta. Tämän ansiosta tekoälytutkijat ja-käytännöt voivat parantaa tätä järjestelmää edelleen ja hienosäätää sitä mukautettuja sovelluksia varten.
Lisää kontekstia: Intelin tutkimus esitellään IEEE/CVF Computer Visionissa. ja Pattern Recognition Conference (CVPR) 18.-22. kesäkuuta. Lisätietoja on kohdassa LDM3D: Latent Diffusion Model for 3D tai katso LDM3D-demo.
Liity keskusteluun tästä viestistä foorumeillamme…