微軟的 VALL-E 可以從 3 秒樣本中復制任何人的聲音

Microsoft 最近推出其最新的文本轉語音 AI 模型 VALL-E，它幾乎可以完美地複制一個人的聲音。該模型只需要三秒鐘的音頻樣本即可進行訓練。一旦它學會了一種特定的聲音，它就可以合成那個人說任何話的音頻，同時保留說話者的情緒基調和環境。

它是如何工作的?

VALL 背後的技術-E 是 EnCodec，Meta 於 2022 年 10 月推出。EnCodec 使 VALL-E 能夠從文本和聲音提示中生成離散的音頻編解碼器代碼。這與通常通過修改波形合成語音的傳統文本轉語音系統不同。

Meta 還構建了團隊用來訓練 VALL-E 的音頻庫 LibriLight。該圖書館包含 60,000 小時的英語語音中的 7,000 多種不同的聲音，大部分是從 LibriVox 公共領域有聲讀物中提取的。此外，VALL-E 還可以模仿樣本音頻的“聲學環境”。例如，它可以在其合成輸出中模擬電話通話的聲學和頻率特性，使其聽起來像電話。

但是，基於論文由研究人員發布，該模型的結果好壞參半，有些聽起來像機器，有些則非常逼真。但它保留了原始樣本的情感基調，使那些有效的樣本更容易被接受。

Microsoft VALL-E 的未來潛力

即使有其局限性，VALL-E 仍有巨大的潛力具有潛力，可以在娛樂、教育甚至語音助手等各個行業中具有實際用途。然而，該團隊承認存在濫用的可能性，研究論文指出，不良行為者可以在他們不知情的情況下使用它來欺騙或冒充他人。

Microsoft 沒有宣布發布 VALL 公共版本的計劃-E，但研究論文提到建立一個模型來檢測 VALL-E 生成的實際語音是可能的。微軟表示:“由於 VALL-E 可以合成保持說話者身份的語音，因此它可能會帶來濫用模型的潛在風險，例如欺騙語音識別或冒充他人。”

微軟的 VALL-E 可以從 3 秒樣本中復制任何人的聲音

Published by IT Info on January 12, 2023

它是如何工作的?

Microsoft VALL-E 的未來潛力

IT Info

Galaxy 手機上的 Google Messages 已改進閱讀回執圖標

IT Info

Galaxy M14 5G 結合了 Exynos 1330 和大容量電池

IT Info

WhatsApp 即將推出自毀群聊功能

微軟的 VALL-E 可以從 3 秒樣本中復制任何人的聲音

Published by IT Info on January 12, 2023

它是如何工作的?

Microsoft VALL-E 的未來潛力

Related Posts

IT Info

Galaxy 手機上的 Google Messages 已改進閱讀回執圖標

IT Info

Galaxy M14 5G 結合了 Exynos 1330 和大容量電池

IT Info

WhatsApp 即將推出自毀群聊功能