微软研究(jiū)人员展示(shì)了一种(zhǒng)令人印象深刻的(de)新型文本转(zhuǎn)语音人工智能模型,名为Vall-E,它(tā)可以只(zhī)听声音几秒钟,然后模仿声音——包括情感语调和音响效果(guǒ)——说出你(nǐ)想说的任何话。
这是许多人工智能算法中(zhōng)最(zuì)新(xīn)的一(yī)种(zhǒng),它们可以利用一个人的声音录(lù)音(yīn),让它说出这个人从未(wèi)说过的(de)单词和句子——而且它只需要一小段音频就能推断出整个人(rén)类的(de)声音,这是非常了不起的。例如,2017年蒙特利尔大学的Lyrebird算法需要整整一分钟的语音来分析(xī),而Vall-E只需要三秒钟的音频(pín)片段。
人工(gōng)智能已(yǐ)经接受了大约6万小时(shí)的英(yīng)语演讲训练——似乎主要(yào)是通过有声读物解(jiě)说员,研究人员(yuán)提供了大量样(yàng)本,在这些样本中,Vall-E试图操纵一系(xì)列人类的声音。有些人在捕(bǔ)捉声音的本质和构(gòu)建(jiàn)听起来自然的新句子方面做(zuò)得非常(cháng)出色——你很难分(fèn)辨出(chū)哪个是真实的(de)声音,哪个是合成的。在其他情况下,唯一的漏洞是人工智能将重点放在(zài)句子(zǐ)中奇怪的(de)地方。
Vall-E在重新创建原始(shǐ)示例的音频环境方面做得特别好。如果样本听起来像通过电话录制的,那么合成(chéng)也是如此。它在口音方面也很不错——至(zhì)少是美式、英式和一些欧洲口音。
在情感方(fāng)面,结果就不(bú)那么(me)令人(rén)印象深(shēn)刻了。使用愤怒、困倦、有趣或厌恶的语音样本似乎会让(ràng)事(shì)情偏离轨道,合成出(chū)来的声音听(tīng)起来扭(niǔ)曲(qǔ)得很奇(qí)怪(guài)。
这类(lèi)技术的(de)影响非常明显(xiǎn);从积极的方(fāng)面来(lái)看,将来你(nǐ)在(zài)超市里推手推车的时候(hòu),可以让摩根·弗(fú)里曼(Morgan Freeman)为(wéi)你的购物清单念一遍。如果演员在电影(yǐng)中中途死亡,他们可以使(shǐ)用(yòng)这样(yàng)的(de)系统(tǒng)通过深度伪(wěi)造的视频和(hé)音频来完(wán)成表演(yǎn)。苹(píng)果公司最近推出(chū)了一套由人工(gōng)智能为你朗读的有声(shēng)读物目录(lù),很显然,你很快(kuài)就(jiù)能(néng)在(zài)飞行中切换(huàn)旁白。
消极的一面是,这对(duì)配音演员和叙述者(zhě)来说并不是什么好消息。或(huò)者对听众(zhòng)来说;人工智能或许能够快速且廉价地完成叙述,但不要指望它有太多艺术元(yuán)素(sù)。他们不会像史蒂芬·弗(fú)莱(lái)那样解读道(dào)格拉(lā)斯(sī)·亚当(dāng)斯。
骗子(zǐ)的潜力也非常大。如果一个骗子能让(ràng)你在电话上停留(liú)三秒钟,他们就能窃取(qǔ)你(nǐ)的声音,然(rán)后用它给你的(de)奶奶打电(diàn)话。或者绕过任何语(yǔ)音(yīn)识(shí)别(bié)安全设备。这正(zhèng)是终(zhōng)结者机器人打电话时需要的东西。
当(dāng)然,每个人都还在等待(dài)这样一(yī)个时刻:一个(gè)政治人(rén)物的(de)第一次深度(dù)伪造的演(yǎn)讲,欺骗了(le)足(zú)够多的人,破坏了相信你的眼睛和耳朵的概念——就好(hǎo)像客观真理在这个(gè)奇怪的(de)时代还没(méi)有受到攻击一样。
微软(ruǎn)Vall-E团队在(zài)其演示页面(miàn)的末尾附加了一份(fèn)简短的道德声明(míng):“这(zhè)项工(gōng)作(zuò)中的实验是在假设模型的用户是(shì)目(mù)标说话者并已得(dé)到说话者(zhě)的批准的情况下进行(háng)的。然(rán)而(ér),当模型推广到看不(bú)见(jiàn)的演讲者时(shí),相关(guān)的(de)组件应该(gāi)伴随着语音编辑模型,包括确保演讲者同意执行修改的(de)协议(yì)和检测编辑后的语音的系统。”
像DALL-E、ChatGPT、各种deepfake算法和(hé)无(wú)数(shù)其他创造(zào)性(xìng)人工(gōng)智能的崛起,感觉(jiào)在过(guò)去几个月里正处于一个拐点,开始冲出(chū)实验(yàn)室,进入现实(shí)世界。与所有(yǒu)变化一样,它带来了机遇和风(fēng)险。我(wǒ)们真的生活(huó)在一(yī)个(gè)有趣的时代。