Microsoft acaba de presentar VALL-E (Codificador-Decodificador aprendido del idioma con reconocimiento de voz), un nuevo modelo de IA de texto a voz que puede simular la voz de cualquier persona con solo una muestra de audio de tres segundos. VALL-E se basa en la tecnología de compresión de audio EnCodec de Meta, que emplea inteligencia artificial para comprimir audio de alta calidad a tasas de datos mucho más bajas que los archivos MP3.

La nueva IA de Microsoft puede preservar el tono emocional y el entorno acústico de un hablante.

La tecnología detrás de VALL-E es innovadora, ya que permite que el modelo analice cómo suena una persona y luego divida esa información en componentes discretos llamados”tokens”. VALL-E puede usar esta información para comparar lo que “sabe” sobre cómo sonaría esa voz si pronunciara otras frases además de la muestra de tres segundos.

Actualmente, los sistemas de texto a voz requieren alta calidad, muy datos de entrenamiento limpios, y se realiza en un estudio de grabación con equipo profesional. Microsoft ha avanzado en el campo con VALL-E, lo que permite que el modelo simule la voz de cualquier persona usando solo una muestra de tres segundos. VALL-E ahora puede simular la voz de casi cualquier persona sin que tengan que pasar semanas en un estudio.

Gizchina Noticias de la semana

Las capacidades de VALL-E se perfeccionaron utilizando la biblioteca de audio LibriLight, que contiene 60 000 horas de habla de más de 7 000 oradores. Esto permite que VALL-E genere voces realistas en inglés. Cuando se combina con otros modelos de IA generativa, tiene el potencial para aplicaciones de texto a voz de alta calidad.

Microsoft ha puesto a disposición una gran colección de muestras generadas por VALL-E, lo que le permite escuchar por sí mismo. Si bien los resultados no son perfectos, las muestras generadas por VALL-E suenan naturales e indistinguibles de la muestra del orador original.

A pesar de las capacidades impresionantes de VALL-E, Microsoft es consciente del potencial de abuso de la tecnología. Según la compañía, el personal dañino puede usar el audio con fines maliciosos, como falsificar la identificación de voz o suplantar la identidad. Para mitigar estos riesgos, Microsoft sugiere desarrollar un modelo de detección para distinguir entre voz sintetizada y genuina generada por VALL-E.

Finalmente, VALL-E es un avance significativo en la tecnología de texto a voz. Su capacidad para simular la voz de cualquier persona usando solo una muestra de audio de tres segundos es revolucionaria para varios usos. Sin embargo, Microsoft debe continuar mejorando VALL-E mientras se asegura de que se implementen las medidas de seguridad adecuadas para evitar su uso indebido.

Fuente/VIA:

Categories: IT Info