乐动网页版_乐动(中国)


    咨询热(rè)线:021-80392549

    乐动网页版_乐动(中国) QQ在线 乐动网页版_乐动(中国) 企业微信
    乐动网页版_乐动(中国)
    乐动网页版_乐动(中国) 资讯(xùn) > 人工智能 > 正文

    微软最(zuì)新的(de)VALL-E人工智能可以(yǐ)在3秒内捕捉到你的声音

    2023/01/13蒲公英互联294

    微软研究(jiū)人员展示(shì)了一种(zhǒng)令人印象深刻的(de)新型文本转(zhuǎn)语音人工智能模型,名为Vall-E,它(tā)可以只(zhī)听声音几秒钟,然后模仿声音——包括情感语调和音响效果(guǒ)——说出你(nǐ)想说的任何话。

    这是许多人工智能算法中(zhōng)最(zuì)新(xīn)的一(yī)种(zhǒng),它们可以利用一个人的声音录(lù)音(yīn),让它说出这个人从未(wèi)说过的(de)单词和句子——而且它只需要一小段音频就能推断出整个人(rén)类的(de)声音,这是非常了不起的。例如,2017年蒙特利尔大学的Lyrebird算法需要整整一分钟的语音来分析(xī),而Vall-E只需要三秒钟的音频(pín)片段。

    人工(gōng)智能已(yǐ)经接受了大约6万小时(shí)的英(yīng)语演讲训练——似乎主要(yào)是通过有声读物解(jiě)说员,研究人员(yuán)提供了大量样(yàng)本,在这些样本中,Vall-E试图操纵一系(xì)列人类的声音。有些人在捕(bǔ)捉声音的本质和构(gòu)建(jiàn)听起来自然的新句子方面做(zuò)得非常(cháng)出色——你很难分(fèn)辨出(chū)哪个是真实的(de)声音,哪个是合成的。在其他情况下,唯一的漏洞是人工智能将重点放在(zài)句子(zǐ)中奇怪的(de)地方。

    Vall-E在重新创建原始(shǐ)示例的音频环境方面做得特别好。如果样本听起来像通过电话录制的,那么合成(chéng)也是如此。它在口音方面也很不错——至(zhì)少是美式、英式和一些欧洲口音。

    在情感方(fāng)面,结果就不(bú)那么(me)令人(rén)印象深(shēn)刻了。使用愤怒、困倦、有趣或厌恶的语音样本似乎会让(ràng)事(shì)情偏离轨道,合成出(chū)来的声音听(tīng)起来扭(niǔ)曲(qǔ)得很奇(qí)怪(guài)。

    这类(lèi)技术的(de)影响非常明显(xiǎn);从积极的方(fāng)面来(lái)看,将来你(nǐ)在(zài)超市里推手推车的时候(hòu),可以让摩根·弗(fú)里曼(Morgan Freeman)为(wéi)你的购物清单念一遍。如果演员在电影(yǐng)中中途死亡,他们可以使(shǐ)用(yòng)这样(yàng)的(de)系统(tǒng)通过深度伪(wěi)造的视频和(hé)音频来完(wán)成表演(yǎn)。苹(píng)果公司最近推出(chū)了一套由人工(gōng)智能为你朗读的有声(shēng)读物目录(lù),很显然,你很快(kuài)就(jiù)能(néng)在(zài)飞行中切换(huàn)旁白。

    消极的一面是,这对(duì)配音演员和叙述者(zhě)来说并不是什么好消息。或(huò)者对听众(zhòng)来说;人工智能或许能够快速且廉价地完成叙述,但不要指望它有太多艺术元(yuán)素(sù)。他们不会像史蒂芬·弗(fú)莱(lái)那样解读道(dào)格拉(lā)斯(sī)·亚当(dāng)斯。

    骗子(zǐ)的潜力也非常大。如果一个骗子能让(ràng)你在电话上停留(liú)三秒钟,他们就能窃取(qǔ)你(nǐ)的声音,然(rán)后用它给你的(de)奶奶打电(diàn)话。或者绕过任何语(yǔ)音(yīn)识(shí)别(bié)安全设备。这正(zhèng)是终(zhōng)结者机器人打电话时需要的东西。

    当(dāng)然,每个人都还在等待(dài)这样一(yī)个时刻:一个(gè)政治人(rén)物的(de)第一次深度(dù)伪造的演(yǎn)讲,欺骗了(le)足(zú)够多的人,破坏了相信你的眼睛和耳朵的概念——就好(hǎo)像客观真理在这个(gè)奇怪的(de)时代还没(méi)有受到攻击一样。

    微软(ruǎn)Vall-E团队在(zài)其演示页面(miàn)的末尾附加了一份(fèn)简短的道德声明(míng):“这(zhè)项工(gōng)作(zuò)中的实验是在假设模型的用户是(shì)目(mù)标说话者并已得(dé)到说话者(zhě)的批准的情况下进行(háng)的。然(rán)而(ér),当模型推广到看不(bú)见(jiàn)的演讲者时(shí),相关(guān)的(de)组件应该(gāi)伴随着语音编辑模型,包括确保演讲者同意执行修改的(de)协议(yì)和检测编辑后的语音的系统。”

    像DALL-E、ChatGPT、各种deepfake算法和(hé)无(wú)数(shù)其他创造(zào)性(xìng)人工(gōng)智能的崛起,感觉(jiào)在过(guò)去几个月里正处于一个拐点,开始冲出(chū)实验(yàn)室,进入现实(shí)世界。与所有(yǒu)变化一样,它带来了机遇和风(fēng)险。我(wǒ)们真的生活(huó)在一(yī)个(gè)有趣的时代。

    关键(jiàn)词: 人(rén)工智能




    AI人工智能网声明:

    凡资讯来源(yuán)注(zhù)明为其他媒体来源的信息(xī),均为转载(zǎi)自其他媒体,并不代表本(běn)网站(zhàn)赞同其观点,也不代表本网站对其真实性(xìng)负责。您若对该文章内(nèi)容有任何疑问或(huò)质疑,请(qǐng)立即与网站(zhàn)(www.bz.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将(jiāng)迅速给您(nín)回应并做处理。


    联系(xì)电(diàn)话:021-31666777   新闻、技术文章投稿(gǎo)QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资讯(xùn)更多

    相关资讯更多(duō)

    热门搜索

    工(gōng)博士人工智能网
    乐动网页版_乐动(中国)
    扫(sǎo)描二维(wéi)码关注微信
    扫码反(fǎn)馈

    扫(sǎo)一扫,反馈当前页面

    咨询反馈(kuì)
    扫码关注

    微信公众号

    返(fǎn)回顶(dǐng)部

    乐动网页版_乐动(中国)

    乐动网页版_乐动(中国)