ChatGPT ja Midjourney uutisoivat nyt paitsi teknisissä medioissa myös muilla aloilla. Tämä saattaa muuttua pian, koska seuraava suuri tekoälytekniikka on tulossa. NVIDIA on esitellyt uutta tekniikkaa, joka saattaa pian nostaa GIF-kuvasi uusiin korkeuksiin.
Viikon Gizchina-uutiset
Käytä NVIDIAn tekstistä videoon-tekniikkaa videoiden luomiseen
Ei kauan sitten, NVIDIA julkaisi mielenkiintoisen tuotteen nimeltä VideoLDM. Se on AI-malli tekstistä videoksi muuntamiseen. Muuten, NVIDIA on luonut tämän tekniikan yhdistämällä kädet Cornellin yliopiston tutkijoiden kanssa. Yksinkertaisesti sanottuna tämä tekoälymalli voi luoda videoita, joiden resoluutio on jopa 2048 x 1280 pikseliä, kehysnopeus 24 kuvaa sekunnissa ja tekstin perusteella jopa 4,7 sekuntia.
Malli hyödyntää vakaan diffuusion edistysaskeleita neuroverkot. NVIDIA-ratkaisussa on jopa 4,1 miljardia parametria. Mutta vain 2,7 miljardia koulutettiin videon avulla. Vaikka saatat ajatella, että tämä luku on valtava, se on pieni nykyisten tekoälystandardien mukaan.
Mallin avulla voidaan myös tallentaa videoita ajokohtauksista. Ne voivat kestää jopa 5 minuuttia ja niiden resoluutio on 1024 x 512 pikseliä. Tämä johtuu siitä, että ajojaksoja on vaikea kuvata tosielämässä. Tämän seurauksena, kun kyse on tällaisista hetkistä, tämä tekniikka voi auttaa elokuvantekijöitä. Malli voi ennustaa multimodaalisia liikemahdollisuuksia luomalla suuren määrän mahdollisia tehtäviä yhdestä lähdekuvasta.
Tällä hetkellä NVIDIA:n esittelemän kaltaiset tekstistä videoksi-tekniikat ovat hyviä käytettäväksi pikkukuvien ja GIF-kuvien luominen. Mutta tiedämme, että NVIDIA kasvaa nopeasti tekoälyn alalla. Ei siis kestä kauaa, kun NVIDIA tuo edistyneempiä tekniikoita pidempien tekstistä videoleikkeiden luomiseen.
Tämä tutkimus esitellään Machine Vision and Pattern Recognition Conference-konferenssissa, joka järjestetään pidettiin Vancouverissa 18.-22. kesäkuuta.
Lähde/VIA: