El nuevo modelo de lenguaje de Microsoft VALL-E es una interesante herramienta de inteligencia artificial que puede copiar voces humanas e incluso las emociones y tonos en ellas. Solo necesita una grabación de tres segundos para usarse como aviso acústico, pero puede transmitir un mensaje diferente utilizando la voz del hablante original. (AITopics vía Windows Central)

Microsoft está invirtiendo mucho en IA. Además de la tecnología ChatGPT AI de OpenAI (que se integrará en Bing y otras aplicaciones de Office), también cuenta con la herramienta VALL-E lanzada recientemente. Es un modelo de lenguaje entrenado en 60,000 horas de datos de habla en inglés. A través de esta tecnología, una persona puede sintetizar un discurso personalizado usando la voz de un hablante diferente.

En un experimento detallado en un artículo (Universidad de Cornell), se probó VALL-E y se obtuvieron resultados favorables.

“Los resultados del experimento muestran que VALL-E supera significativamente al sistema TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante”, se lee en el documento.”Además, encontramos que VALL-E podría preservar la emoción del hablante y el entorno acústico del mensaje acústico en síntesis”.

En algunos de los muestras compartidas, los discursos sintetizados con indicaciones acústicas suenan casi impecables. VALL-E logró copiar los mismos tonos y emociones de los oradores originales e incluso los usó para dar un discurso personalizado muy diferente. Por ejemplo, pudo producir grabaciones de la misma oración (“Tenemos que reducir la cantidad de bolsas de plástico”) pronunciada en diferentes estados de ánimo o tonos, como enojo, somnolencia, neutralidad, diversión y disgusto.

A pesar de este rendimiento excepcional, Microsoft probablemente tenga planes adicionales para mejorar VALL-E más en el futuro para ayudarlo a brindar un rendimiento más impecable. Y si bien puede ser útil para varios escenarios de casos, la tecnología también puede ser peligrosa en manos de personas equivocadas. Afortunadamente, actualmente no está disponible para el público, lo que podría darle a la empresa de Redmond más tiempo para pensar cómo y dónde ofrecerá esta tecnología.

¿Cuál es su opinión al respecto? Háganos saber en la sección de comentarios.

Categories: IT Info