Meta (anciennement Facebook) a construit trois nouveaux modèles d’intelligence artificielle (IA) conçus pour rendre le son plus réaliste dans les expériences de réalité mixte et virtuelle.
Les trois modèles d’IA–Visuel-Acoustic Matching, Visually-Informed Dereverberation et VisualVoice-se concentrent sur la parole et les sons humains dans la vidéo et sont conçus pour”nous pousser vers une réalité plus immersive à un rythme plus rapide”, a déclaré la société dans un communiqué.
“L’acoustique joue un rôle dans la façon dont le son sera ressenti dans le métaverse, et nous pensons que l’IA sera essentielle pour fournir une qualité sonore réaliste”, ont déclaré les chercheurs en IA de Meta et les spécialistes audio de son équipe Reality Labs.
Ils a construit les modèles d’IA en collaboration avec des chercheurs de l’Université du Texas à Austin, et rend ces modèles de compréhension audiovisuelle ouverts aux développeurs.
Le modèle d’appariement visuel-acoustique auto-supervisé, appelé AViTAR, ajuste l’audio pour correspondre l’espace d’une image cible.
L’objectif de formation auto-supervisé apprend la correspondance acoustique à partir de vidéos Web sauvages, malgré leur manque d’acoustique incompatible audio et de données non étiquetées, a informé Meta.
VisualVoice apprend dans un manière similaire à la façon dont les gens maîtrisent de nouvelles compétences, en apprenant des indices visuels et auditifs à partir de vidéos sans étiquette pour obtenir une séparation audio-visuelle de la parole.
Par exemple, imaginez pouvoir assister à une réunion de groupe dans le métaverse avec des collègues du monde entier, mais au lieu que les gens aient moins de conversations et se parlent entre eux, la réverbération et l’acoustique s’ajusteraient en conséquence au fur et à mesure qu’ils se sont déplacés dans l’espace virtuel et ont rejoint des groupes plus petits.
“VisualVoice se généralise bien aux vidéos du monde réel difficiles de divers scénarios”, ont déclaré les chercheurs de Meta AI.
FacebookTwitterLinkedin