Microsoft mostró IA que puede imitar cualquier voz humana. Se llama VALL-E, al igual que el algoritmo DALL-E anterior. Si lo sabes, este último crea una imagen a partir de un texto.

VALL-E puede imitar el timbre y la forma de hablar escuchando la voz de una persona real en tan solo tres segundos. Aunque el sonido suena un poco como la voz de un robot, el resultado sigue siendo impresionante.

Microsoft lo llamó un”modelo de lenguaje de códec neuronal”. VALL-E se construyó sobre la base de EnCodec (un códec de audio que utiliza técnicas de aprendizaje automático), desarrollado por Meta hace un año, en 2022.

Gizchina Noticias de la semana

VALL-E imita la voz de cualquiera

Otros métodos de conversión de texto a voz tienen en cuenta las formas de onda. Pero VALL-E genera códecs de audio separados de texto y audio. En efecto, analiza cómo suena una persona. Luego, divide esa información en partes separadas (llamadas”tokens”) a través de EnCodec. Y al final, usa datos de entrenamiento para hacer coincidir lo que”sabe”sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos.

VALL-E se enseñó usando un biblioteca. Este último contiene 60.000 horas de habla en inglés de más de 7.000 personas. Los desarrolladores sugieren que el método podría usarse para aplicaciones de texto a voz de alta calidad. Por ejemplo, puede usarlo para editar grabaciones de voz donde se permite cambiar las palabras humanas. Como resultado, puede crear contenido de audio (como voces superpuestas para audiolibros) y más.

Por supuesto, esta tecnología también puede conllevar cierto peligro. Tarde o temprano, los usuarios”tuertos”lo convertirán en una herramienta de chantaje. Digamos que pueden usar la IA para demostrar que las personas famosas han dicho algo que no dijeron. Ya ha habido tales casos con deepfakes en formato de video.

Suponemos que has visto el video de Elon Musk, quien promete grandes ganancias al invertir en una criptomoneda dudosa.

Fuente/VIA:

Categories: IT Info