微软(ruǎn)研(yán)究人(rén)员展示了一种令人印(yìn)象深刻的新型(xíng)文本转(zhuǎn)语(yǔ)音人工(gōng)智能(néng)模型,名为Vall-E,它可以只听声音几秒(miǎo)钟,然后模仿声(shēng)音(yīn)——包括情感语调和音响效果——说出(chū)你想说的任何(hé)话。
这是(shì)许(xǔ)多人工智(zhì)能算法(fǎ)中最新的一种,它(tā)们(men)可(kě)以(yǐ)利(lì)用一(yī)个人的声音录(lù)音,让它(tā)说出(chū)这个人从未说过的单(dān)词和句子——而且它只需要一小段音频就能推断出整个人类的(de)声音,这是非常了不起的。例(lì)如,2017年蒙特利尔大学的Lyrebird算法需要(yào)整整一(yī)分钟的语音来分析,而Vall-E只(zhī)需要三秒钟的音频片段。
人工智能(néng)已经接受(shòu)了大约6万小时的英(yīng)语演讲训练——似乎主要是通过有声读物解说员,研究人员提(tí)供了大量(liàng)样本,在这些(xiē)样本中,Vall-E试图操纵一系列人类(lèi)的声音。有些人在捕捉声(shēng)音的本质和构(gòu)建听起来自然的新句子方面做得非常出色——你很难分辨出哪个是真实的声(shēng)音(yīn),哪个是合成的。在其(qí)他情况下,唯一的漏洞是人工智能将重点(diǎn)放在句子中(zhōng)奇怪的地方。
Vall-E在重新创建原始示(shì)例的音(yīn)频环境方面做得特别(bié)好。如果样本听起来(lái)像通过电话录制的,那么合成也是如此。它在口音方面也(yě)很不错——至少是美式、英式和一些欧洲口音(yīn)。
在情感方面,结果就不那么令人印象深刻了。使用愤怒(nù)、困倦、有趣或厌恶的语音样本似乎(hū)会让事情偏离轨道,合成出(chū)来的声音(yīn)听起来扭曲得很奇怪。
这类技术的(de)影响非常明显;从积极的方(fāng)面来看,将(jiāng)来你在超市里推手(shǒu)推车的(de)时候,可以让摩根·弗里曼(màn)(Morgan Freeman)为你的购物清单念一遍。如果演(yǎn)员在电影中中途死亡,他(tā)们可(kě)以使用这(zhè)样的(de)系统通过深度伪造(zào)的视频和音频来完成表演。苹果公司最近推出了一套由人(rén)工智能为你朗读的有声读(dú)物(wù)目录,很显然,你很快就能(néng)在飞行(háng)中切(qiē)换旁(páng)白。
消极的一面是,这对配音演员(yuán)和(hé)叙(xù)述者来说(shuō)并不是(shì)什么(me)好消息。或(huò)者对听众来说(shuō);人工智(zhì)能或许(xǔ)能够快速且廉价地完(wán)成叙述(shù),但不要指望它有太多艺术元素。他(tā)们不会像史蒂芬·弗(fú)莱那样解读道格拉斯·亚当斯。
骗子的潜(qián)力也非常大。如果一个骗子能让你在电(diàn)话上停留三秒(miǎo)钟,他们就能(néng)窃取你的声(shēng)音(yīn),然后(hòu)用它给你的奶奶(nǎi)打电话。或者绕过任何语音识别安全设备。这正是终结者机(jī)器人打电话时需要(yào)的东西。
当然,每个人都(dōu)还在(zài)等待这样一个时刻:一个政治人物的第一次深(shēn)度伪造的演(yǎn)讲,欺骗了(le)足够多(duō)的(de)人,破坏(huài)了(le)相信你的眼睛和耳(ěr)朵的概念(niàn)——就好像客(kè)观真理在这(zhè)个奇怪(guài)的时代还没(méi)有受(shòu)到攻(gōng)击一样(yàng)。
微软Vall-E团队在其演示页(yè)面的末尾附(fù)加了(le)一份简(jiǎn)短的道德声明:“这项工作中的实(shí)验是在(zài)假设模型的用户是目标说(shuō)话者并已得到说(shuō)话者(zhě)的批准的情况下进行的。然而,当模型推(tuī)广到看(kàn)不见的演讲者时,相关的(de)组件应该伴随(suí)着(zhe)语音编辑模型,包括确保演(yǎn)讲者同(tóng)意(yì)执行修改的协议和检测编辑后(hòu)的语音的系统。”
像(xiàng)DALL-E、ChatGPT、各种deepfake算法(fǎ)和无数其(qí)他创造性人(rén)工智能的崛起,感觉在过去(qù)几个月里正处(chù)于一个拐点,开始(shǐ)冲出实验室,进入(rù)现实世界。与所有变化(huà)一样,它带来了机遇和风险。我(wǒ)们真的生活在一个有趣的时代。