时刻

人工智能可以在三秒内获取你的声音

人工智能可以在三秒内获取你的声音

人工智能(AI)现在正处于风口浪尖,而微软正在开发一种人工智能,在向其提供短短三秒钟的样本后,可以模仿任何人的声音.

被称为VALL-E的新工具已经在大约6万小时的英语语音数据上进行了训练,微软称其 “比现有系统大数百倍”。利用这些知识,其创造者声称它只需要一小部分语音输入就能理解如何复制用户的声音。

更令人印象深刻的是,VALL-E可以重现每个样本中的情感、声调和声学环境,这是其他语音人工智能程序难以做到的。这给了它一个更真实的光环,使其结果更接近于可以作为真正的人类语音。

当与其他文本到语音(TTS)的竞争者相比,微软说VALL-E “在语音自然度和说话人相似度方面明显优于最先进的零拍TTS系统”。换句话说,VALL-E听起来比遇到没有经过训练的音频输入的对手AI更像真正的人类。

在GitHub上,微软创建了一个使用VALL-E创建的小型样本库。其结果令人印象深刻,许多样本再现了说话人的声音的轻重缓急。有些例子不太有说服力,表明VALL-E可能不是一个成品,但总的来说,输出是有说服力的。

在介绍VALL-E的论文中,微软解释说,VALL-E “可能存在滥用模型的潜在风险,如欺骗性的语音识别或冒充特定的说话者”。这样一个能够生成听起来很真实的语音的工具引起了人们对越来越有说服力的深度伪造的担忧,它可以被用来模仿任何东西,从以前的浪漫伴侣到著名的国际人士。


为了减轻这种威胁,微软表示,”有可能建立一个检测模型来分辨一个音频片段是否是由瓦力合成的”。该公司表示,在开发其工作时,它还将使用自己的人工智能原则。这些原则涵盖了公平、安全、隐私和问责制等领域。


VALL-E只是微软在人工智能方面实验的最新例子。最近,该公司一直在努力将ChatGPT整合到必应,使用人工智能来回顾你的团队会议,并将先进的工具嫁接到Outlook、Word和PowerPoint等应用程序中。而根据Semafor的说法,微软正寻求向ChatGPT制造商OpenAI投资100亿美元,它已经向这家公司投入了大量资金。


尽管存在明显的风险,像VALL-E这样的工具在医学上可能特别有用,例如,帮助人们在事故后恢复声音。在这些情况下,能够用如此小的输入集来复制语音是非常有希望的,只要做得对。但是,随着微软和其他公司在人工智能上花费的所有资金,显然它不会很快消失。

分享此文章