乐动网页版_乐动(中国)


    咨询热线:021-80392549

    乐动网页版_乐动(中国) QQ在线 乐动网页版_乐动(中国) 企业微信(xìn)
    乐动网页版_乐动(中国)
    乐动网页版_乐动(中国) 资讯 > 人工智能 > 正文

    当AI遇(yù)上FPGA会产生怎样(yàng)的(de)反应

    2019/06/27397

    机器在(zài)ImageNet中图像识别错误(wù)率达到(dào)了(le)3.5%,远远超出了人类平均的(de)5.1%。在越来越(yuè)多的领域,AI已经拥(yōng)有了超越人类的能力(lì),比如象棋、围棋,比如图片、语音识(shí)别(bié)。AI计(jì)算平(píng)台(tái)和(hé)相(xiàng)关算法的(de)发展是人工(gōng)智能大跃(yuè)进的基(jī)础,在线下(xià)模型(xíng)训练中(zhōng)Xeon-Phi、GPU等发挥着巨大的(de)作用,而在线上的推理任务(wù)中,浪潮FPGA深(shēn)度学习(xí)加速解决方案则能(néng)够实现(xiàn)7倍以上(shàng)的(de)能效比(bǐ)提升。

    卷(juàn)积(jī)网络之父、Facebook人工智能(néng)实验(yàn)室主任Yann LeCun在一次(cì)采访中表示,“大规模的在(zài)卷(juàn)积神(shén)经网(wǎng)络训练上可(kě)能是比较慢,但是(shì)在(zài)一个实(shí)际(jì)的应用(yòng)中,没人关心训练到底要花多长时间,人(rén)们只关(guān)心(xīn)运(yùn)行需要多久。”

    也就是说,当模型一旦被训练完(wán)成,线上推(tuī)理的效率才决(jué)定用户体验。比如,有(yǒu)2个同样AI模型的(de)训练,一(yī)家公司用(yòng)了1天(tiān)训练(liàn)完成,但(dàn)线(xiàn)上(shàng)推理的效率只有每秒(miǎo)100个任务;另(lìng)一家公(gōng)司用了7天训练完成,但线上推理效率可以达到每秒(miǎo)1000个。那么对于最终(zhōng)用(yòng)户而言,第二家公司的(de)应用无(wú)疑更快、用户体验更佳。那么如(rú)何才能提升人工智能(néng)应用的线上(shàng)推理任务(wù)的效率?

    当AI遇上FPGA会产(chǎn)生怎样(yàng)的(de)反应

    目前,GPU已经(jīng)在深(shēn)度(dù)学习训练(liàn)模型领域开创性地(dì)创(chuàng)建了包含CNN、DNN、RNN、LSTM以及强化学习网(wǎng)络等算法在内的(de)应用加速平台和完整的生态系统。深度学习包含两个计算环节,即线下训练和线(xiàn)上推理环(huán)节。GPU在(zài)深度学(xué)习(xí)算法模型训练上非常高效,但在推理(lǐ)时,一次性只能对于一个输入项进行处理,并行(háng)计(jì)算的(de)优势不能发挥出来。

    相比较而言(yán),运行深度学习算法实现同(tóng)样的性能,GPU所需(xū)功(gōng)耗远大于FPGA,通常情(qíng)况(kuàng)下,GPU只能达到FPGA能效比的一半或更低。目前来(lái)看,深度(dù)学习算法还未完全成熟,算法还在迭代衍化(huà)过程中,若(ruò)深度学习(xí)算法发(fā)生大(dà)的变(biàn)化,GPU无(wú)法(fǎ)像FPGA一样可以灵活的配置(zhì)硬件结构,快速切入(rù)市(shì)场。

    因此,FPGA和GPU未来在超级(jí)数据中心将(jiāng)成主流应用。尤其(qí)是在深度学习方面, GPU强在训练,而FPGA强(qiáng)在推断。原百度IDL常务(wù)副院(yuàn)长、现地平(píng)线机器人创始人&CEO余(yú)凯(kǎi)博(bó)士在北大一次(cì)公开课中透(tòu)露(lù):“百度广(guǎng)告系统上线跟语(yǔ)音系统上线都需(xū)要实时计算,并且它的流量特别大,特别(bié)是(shì)广告,这种情况(kuàng)下 CPU 跟 GPU 其(qí)实(shí)都扛不住,所以我们当时用(yòng) FPGA 去做专门的硬件加速。”

    由于FPGA具有可编程专用性(xìng),高性能及低功(gōng)耗的特点,浪(làng)潮推出基于FPGA的深(shēn)度学习加(jiā)速解决方(fāng)案,希望通过更高配置的硬件板卡(kǎ)设计和内置更高(gāo)效(xiào)已编译算法,来加速FPGA在人工智能领域的应用(yòng)。

    这(zhè)一方(fāng)案基于浪潮(cháo)研发的业界最高密度的FPGA卡——F10A,单芯(xīn)片峰值运算能力为1.5TFlops,而功耗仅35W,每瓦特性42GFlops。同时(shí),F10A设计(jì)半高半长PCI-E插(chā)卡,具有灵活的板卡内存配置,最大支持32G双通道内存,能够(gòu)寄(jì)存(cún)更多的并行任(rèn)务数据。此外,F10A支(zhī)持2个10Gb光口,可(kě)以实现数据直接从网络(luò)到板卡处理,无需经(jīng)过CPU,减低了传输延时。

    而(ér)在算法上,浪潮FPGA深度学习(xí)加(jiā)速解决方案针对(duì)CNN卷(juàn)积神经网络的(de)相关算法进行优化(huà)和固化(huà)。客户在采用此(cǐ)解(jiě)决方(fāng)案后,只需要将(jiāng)目前深(shēn)度学习的(de)算法和模(mó)型编译成与浪潮(cháo)深度(dù)学习加速(sù)解决方(fāng)案的配置脚本,即可进行(háng)线上应用,省去至(zhì)少3个月到半年的(de)开发周期和(hé)相关成本。并且在算法(fǎ)运(yùn)行效率上,浪潮FPGA加速方案(àn)相(xiàng)比CPU、GPU都有着很大优势。

    目前,浪潮FPGA方(fāng)案可加(jiā)速ResNet等(děng)神(shén)经网络(luò),能够(gòu)应用于图片分类、对象检测和(hé)人脸识(shí)别等应用场景。以(yǐ)通过构(gòu)建ResNet残差网络的图片识别分类(lèi)任务为例,对通用图像识别基础数据集CIFAR-10进行(háng)测试,通过浪(làng)潮FPGA解(jiě)决方案进行处理,能够(gòu)实现每(měi)秒742张的(de)处理速(sù)度,Top-5识别(bié)准(zhǔn)确率(lǜ)达到99.7%。而在同(tóng)样的模(mó)型下,使用NVidia M4仅能达(dá)到172张每秒,并且M4的功耗为50-75W,浪潮FPGA的功耗(hào)仅为30-45W。因此,从能(néng)效比来看,浪潮FPGA加速解决方(fāng)案在(zài)图片识(shí)别分类(lèi)应用上,相比GPU能效比能提(tí)升7倍以上!同样,与通用CPU对比,在处理这种高(gāo)并行(háng)、小(xiǎo)计算量的(de)任务时(shí),FPGA的优势将更明显(xiǎn)。

    除了(le)在AI的线(xiàn)上推理方向,FPGA在其(qí)他很多(duō)方面也能(néng)发挥(huī)价值。在面向(xiàng)计(jì)算密集型任务,比如矩阵(zhèn)运(yùn)算、图像处(chù)理、机器(qì)学习、压缩、非(fēi)对称加密、搜索的排序等的时候,拥有流(liú)水线并行和数据并(bìng)行的(de)FPGA效率会高很多。目前,浪潮已经推出面(miàn)向WebP图片转码、Gzip数据压缩和深度学习等方(fāng)向的完整解决(jué)方(fāng)案,能够实现10倍以上的图片(piàn)压缩吞(tūn)吐能力,8-10倍的数据压缩效(xiào)率和10倍(bèi)以上的图片(piàn)分类(lèi)识别(bié)能效比。

    关键词: AI




    AI人工(gōng)智能网声明:

    凡(fán)资讯来源注明为其(qí)他媒体来源(yuán)的信息,均为转载自其(qí)他(tā)媒体,并不代表本网站赞同其(qí)观点(diǎn),也不代表本网站对(duì)其真实性负责(zé)。您(nín)若对该文章内容有任何疑问或质(zhì)疑,请立即与网站(zhàn)(www.bz.xinxiang.zz.pingliang.ww38.viennacitytours.com)联(lián)系,本(běn)网站将迅速给您回应(yīng)并做处理。


    联系电话(huà):021-31666777   新闻、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资(zī)讯更多

    相关资讯(xùn)更多

    热门搜索

    工博士人工智能(néng)网(wǎng)
    乐动网页版_乐动(中国)
    扫描二维码(mǎ)关注微信(xìn)
    扫码反馈

    扫一扫,反馈当(dāng)前页面

    咨询反馈
    扫码关注

    微(wēi)信公众号

    返回顶(dǐng)部

    乐动网页版_乐动(中国)

    乐动网页版_乐动(中国)