Slika: Intel

Intel Labs, u suradnji s Blockade Labs, predstavio je model latentne difuzije za 3D (LDM3D), novi i prvi u industriji AI difuzijski model koji korisnicima omogućuje stvaranje 3D slika s prikazima od 360 stupnjeva jednostavno kroz tekst. Prema Intelu, ovaj će razvoj “revolucionirati stvaranje sadržaja, metaverzum i digitalna iskustva.”

“Generativna AI tehnologija ima za cilj dodatno povećati i poboljšati ljudsku kreativnost i uštedjeti vrijeme. Međutim, većina današnjih generativnih AI modela ograničena je na generiranje 2D slika i samo ih vrlo malo može generirati 3D slike iz tekstualnih upita. Za razliku od postojećih modela latentne stabilne difuzije, LDM3D omogućuje korisnicima generiranje slike i mape dubine iz zadanog tekstualnog upita koristeći gotovo isti broj parametara. Omogućuje točniju relativnu dubinu za svaki piksel na slici u usporedbi sa standardnim metodama naknadne obrade za procjenu dubine i štedi programerima značajno vrijeme za razvijanje scena.”

Iz Intel priopćenje za javnost:

Zašto Bitno je: Zatvoreni ekosustavi ograničavaju razmjere. A Intelova predanost istinskoj demokratizaciji umjetne inteligencije omogućit će širi pristup prednostima umjetne inteligencije kroz otvoreni ekosustav. Jedno područje koje je doživjelo značajan napredak posljednjih godina je polje računalnog vida, posebno u generativnoj umjetnoj inteligenciji. Međutim, mnogi od današnjih naprednih generativnih AI modela ograničeni su na generiranje samo 2D slika. Za razliku od postojećih modela difuzije, koji općenito samo generiraju 2D RGB slike iz tekstualnih upita, LDM3D omogućuje korisnicima da generiraju i sliku i mapu dubine iz zadanog tekstualnog upita. Koristeći gotovo isti broj parametara kao latentna stabilna difuzija, LDM3D pruža točniju relativnu dubinu za svaki piksel na slici u usporedbi sa standardnim metodama naknadne obrade za procjenu dubine.

Ovo istraživanje moglo bi revolucionirati način na koji komuniciramo s digitalnog sadržaja omogućujući korisnicima da dožive svoje tekstualne upute na dosad nezamislive načine. Slike i karte dubine koje generira LDM3D omogućuju korisnicima da tekstualni opis mirne tropske plaže, modernog nebodera ili znanstveno-fantastičnog svemira pretvore u detaljnu panoramu od 360 stupnjeva. Ova mogućnost hvatanja dubinskih informacija može trenutačno poboljšati sveukupni realizam i uranjanje, omogućujući inovativne aplikacije za industrije u rasponu od zabave i igara do dizajna interijera i popisa nekretnina, kao i virtualnih muzeja i imerzivnih iskustava virtualne stvarnosti (VR).

LDM3D je 20. lipnja osvojio Nagradu za najbolji poster na 3DMV radionica na CVPR-u.

Kako radi: LDM3D je obučen na skupu podataka konstruiranom iz podskupa od 10 000 uzoraka baze podataka LAION-400M, koja sadrži više od 400 milijuna parova slika-naslov. Tim je upotrijebio model procjene velike dubine Dense Prediction Transformer (DPT) (prethodno razvijen u Intel Labsu) za označavanje korpusa obuke. DPT-veliki model pruža vrlo preciznu relativnu dubinu za svaki piksel na slici.  LAION-400M skup podataka sagrađen je u istraživačke svrhe kako bi se omogućila obuka modela testiranja u većem opsegu za široke istraživača i drugih zainteresiranih zajednica.

LDM3D model trenira se na Intel AI superračunalu koje pokreću Intel Xeon procesori i Intel Habana Gaudi AI akceleratori. Rezultirajući model i cjevovod kombiniraju generiranu RGB sliku i mapu dubine za generiranje prikaza od 360 stupnjeva za impresivna iskustva.

Kako bi demonstrirali potencijal LDM3D-a, istraživači Intela i Blockade razvili su DepthFusion, aplikaciju koja koristi standardni 2D RGB fotografije i dubinske karte za stvaranje impresivnih i interaktivnih iskustava pogleda od 360 stupnjeva. DepthFusion koristi TouchDesigner, vizualni programski jezik temeljen na čvorovima za interaktivni multimedijski sadržaj u stvarnom vremenu, kako bi tekstualne upute pretvorio u interaktivna i impresivna digitalna iskustva. LDM3D model jedan je model za stvaranje RGB slike i njezine karte dubine, što dovodi do uštede na memorijskom tragu i poboljšanja latencije.

Što je sljedeće: Uvođenje LDM3D i DepthFusion utire put daljnjem napretku u multi-view generativnoj umjetnoj inteligenciji i računalnom vidu. Intel će nastaviti istraživati ​​korištenje generativne umjetne inteligencije za povećanje ljudskih sposobnosti i izgradnju snažnog ekosustava istraživanja i razvoja umjetne inteligencije otvorenog koda koji demokratizira pristup ovoj tehnologiji. Nastavljajući Intelovu snažnu podršku otvorenom ekosustavu u umjetnoj inteligenciji, LDM3D je otvorenog izvora putem HuggingFace. To će omogućiti istraživačima i praktičarima umjetne inteligencije da dodatno poboljšaju ovaj sustav i fino ga prilagode za prilagođene aplikacije.

Više konteksta: Intelova istraživanja bit će predstavljena na IEEE/CVF Computer Vision i Konferencija o prepoznavanju uzoraka (CVPR) od 18. do 22. lipnja. Za više informacija pogledajte “LDM3D: model latentne difuzije za 3D” ili pogledajte LDM3D demo.

Pridružite se raspravi za ovaj post na našim forumima…

Categories: IT Info