Microsoft ha revelado recientemente su último modelo de IA de texto a voz llamado VALL-E, que puede replicar la voz de una persona casi a la perfección. El modelo solo necesita una muestra de audio de tres segundos para entrenar. Una vez que aprende una voz específica, puede sintetizar el audio de esa persona diciendo algo mientras conserva el tono emocional del hablante y el entorno.

¿Cómo funciona?

La técnica detrás de VALL-E es EnCodec, que Meta presentó en octubre de 2022. EnCodec permite a VALL-E producir códigos de códec de audio discretos a partir de señales acústicas y de texto. Esto difiere de los sistemas de conversión de texto a voz convencionales que generalmente sintetizan el habla modificando las formas de onda.

Meta también construyó la biblioteca de audio LibriLight que el equipo usó para entrenar a VALL-E. Esta biblioteca incluye más de 7000 voces diferentes entre las 60 000 horas de habla en inglés, en su mayoría extraídas de los audiolibros de dominio público de LibriVox. Además, VALL-E también puede imitar el “ambiente acústico” del audio de muestra. Por ejemplo, puede simular las características acústicas y de frecuencia de una llamada telefónica en su salida sintética, haciéndola sonar como una llamada telefónica.

Sin embargo, según el documento publicado por los investigadores, los resultados del modelo son mixtos, algunos suenan a máquina y otros son sorprendentemente realistas. Pero conserva el tono emocional de las muestras originales haciendo más aceptables las que funcionan.

El futuro potencial de Microsoft VALL-E

Incluso con sus limitaciones, VALL-E tiene enormes potencial y puede tener usos prácticos en diversas industrias, como el entretenimiento, la educación e incluso en asistentes de voz. Sin embargo, el equipo reconoce el potencial de uso indebido, y el trabajo de investigación señala que los malos actores pueden usarlo para falsificar o hacerse pasar por otra persona sin su conocimiento.

Microsoft no ha anunciado planes para lanzar una versión pública de VALL-E, pero el trabajo de investigación menciona que es posible construir un modelo que pueda detectar el habla real a partir de uno generado por VALL-E.”Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o suplantar”, dijo Microsoft.

Categories: IT Info