Microsoft 最近推出其最新的文本轉語音 AI 模型 VALL-E,它幾乎可以完美地複制一個人的聲音。該模型只需要三秒鐘的音頻樣本即可進行訓練。一旦它學會了一種特定的聲音,它就可以合成那個人說任何話的音頻,同時保留說話者的情緒基調和環境。

它是如何工作的?

VALL 背後的技術-E 是 EnCodec,Meta 於 2022 年 10 月推出。EnCodec 使 VALL-E 能夠從文本和聲音提示中生成離散的音頻編解碼器代碼。這與通常通過修改波形合成語音的傳統文本轉語音系統不同。

Meta 還構建了團隊用來訓練 VALL-E 的音頻庫 LibriLight。該圖書館包含 60,000 小時的英語語音中的 7,000 多種不同的聲音,大部分是從 LibriVox 公共領域有聲讀物中提取的。此外,VALL-E 還可以模仿樣本音頻的“聲學環境”。例如,它可以在其合成輸出中模擬電話通話的聲學和頻率特性,使其聽起來像電話。

但是,基於論文 由研究人員發布,該模型的結果好壞參半,有些聽起來像機器,有些則非常逼真。但它保留了原始樣本的情感基調,使那些有效的樣本更容易被接受。

Microsoft VALL-E 的未來潛力

即使有其局限性,VALL-E 仍有巨大的潛力具有潛力,可以在娛樂、教育甚至語音助手等各個行業中具有實際用途。然而,該團隊承認存在濫用的可能性,研究論文指出,不良行為者可以在他們不知情的情況下使用它來欺騙或冒充他人。

Microsoft 沒有宣布發布 VALL 公共版本的計劃-E,但研究論文提到建立一個模型來檢測 VALL-E 生成的實際語音是可能的。微軟表示:“由於 VALL-E 可以合成保持說話者身份的語音,因此它可能會帶來濫用模型的潛在風險,例如欺騙語音識別或冒充他人。”

Categories: IT Info