Meta (sebelumnya Facebook) telah membangun tiga model kecerdasan buatan (AI) baru yang dirancang untuk membuat suara lebih realistis dalam pengalaman realitas virtual dan campuran.

Ketiga model AI–Visual-Pencocokan Akustik, Dereverberasi yang Diinformasikan Secara Visual, dan VisualVoice–fokus pada ucapan dan suara manusia dalam video dan dirancang untuk mendorong”kita menuju realitas yang lebih mendalam dengan kecepatan yang lebih cepat,”kata perusahaan itu dalam sebuah pernyataan.

“Akustik berperan dalam bagaimana suara akan dialami di metaverse, dan kami yakin AI akan menjadi inti untuk menghadirkan kualitas suara yang realistis,”kata peneliti AI dan spesialis audio Meta dari tim Reality Labs.

Mereka membangun model AI bekerja sama dengan para peneliti dari University of Texas di Austin, dan membuat model ini untuk pemahaman audio-visual terbuka bagi pengembang.

Model Pencocokan Visual-Akustik yang diawasi sendiri, yang disebut AViTAR, menyesuaikan audio agar sesuai ruang dari gambar target.

Tujuan pelatihan dengan pengawasan mandiri mempelajari pencocokan akustik dari video web di alam liar, meskipun tidak ada audio yang tidak cocok secara akustik dan data yang tidak berlabel, kata Meta.

VisualVoice belajar dalam cara yang mirip dengan bagaimana orang menguasai keterampilan baru, dengan mempelajari isyarat visual dan pendengaran dari video tanpa label untuk mencapai pemisahan ucapan audio-visual.

Misalnya, bayangkan bisa menghadiri pertemuan kelompok di metaverse dengan rekan-rekan dari seluruh dunia, tetapi alih-alih orang-orang memiliki lebih sedikit percakapan dan berbicara satu sama lain, gema dan akustik akan menyesuaikan sesuai saat mereka bergerak di sekitar ruang virtual dan bergabung dengan kelompok yang lebih kecil.

“VisualVoice digeneralisasikan dengan baik untuk menantang video dunia nyata dari beragam skenario,”kata peneliti Meta AI.

FacebookTwitterLinkedin

Categories: IT Info