如(rú)果只是(shì)作为驾(jià)驶模拟器(qì),可能(néng)很平庸(yōng),但对电子游戏(xì)画面来说,这(zhè)可能是一场伟大的(de)革命(mìng) 。
图|真实视(shì)频(pín)(左)和AI生成的(de)渲染视频(右)之间的(de)对比。(图源:英伟达)
最近人工(gōng)智(zhì)能的繁(fán)荣(róng)给(gěi)图像和视频生成领域带来(lái)了一系(xì)列令人印象深刻(kè)的成果。最新(xīn)成果(guǒ)来(lái)自(zì)芯(xīn)片制造商英伟(wěi)达,该公司12月3日发布了一份研究报告,展示了AI生成的画面如何(hé)与传统的视(shì)频游戏引擎相结(jié)合。这(zhè)种混合图形系统(tǒng)有望应用到视频游戏,电影和虚拟现实等方面(miàn)。
“这是(shì)使用深度学习渲(xuàn)染视频内容(róng)的一种新(xīn)方式,”英伟达应用深度学习(xí)副总裁(cái)Bryan Catanzaro表示。“显然,英伟达非(fēi)常关心图形生成,并且我们正在思(sī)考如何利用人(rén)工智能彻底改变这一领(lǐng)域。”
英伟达(dá)的生成的(de)图片并没有达到真实照片级的画面(miàn),他们展(zhǎn)示了在(zài) AI 生(shēng)成(chéng)的图像(xiàng)中(zhōng)发现的一(yī)些水印状的模(mó)糊。并且(qiě)这一工作也不是完(wán)全创新的。在(zài)一篇研究(jiū)论(lùn)文中,该公司的(de)工程(chéng)师解释了他(tā)们(men)如何基(jī)于一些现有(yǒu)方法(fǎ),包括一(yī)个有影响(xiǎng)力(lì)的开(kāi)源系统pix2pix。此外英伟达的工作中还(hái)应用到了生(shēng)成对抗网络(GAN)。这些方法已经(jīng)广(guǎng)泛用(yòng)于AI图像(xiàng)生成(chéng)。
但(dàn)是英伟达还是在新产品中引入很(hěn)多创新,这是世界上首个(gè)利用(yòng)AI生成(chéng)图形画面的(de)视频游戏(xì)演示(shì)。这个产品是一(yī)个简单的驾(jià)驶模拟器,玩家可以在AI生成的几个(gè)城市街(jiē)区中穿行,但不能(néng)离开他们的汽车,也不能以(yǐ)其他方(fāng)式(shì)与(yǔ)世界互动(dòng)。并(bìng)且这一演示仅使用(yòng)一个GPU即可实现 ,对于这样的前沿工作来(lái)说,这是一个显著的成(chéng)就。
英伟(wěi)达的系(xì)统利用如下几个步骤(zhòu)生成(chéng)图形画面:首先,研究人员(yuán)必须收集训练数据,一般(bān)这些(xiē)数据来(lái)自于自(zì)动驾(jià)驶(shǐ)研究的开源数据(jù)集。然后将这些视频(pín)数据(jù)中的每一个镜头做分割,即每一(yī)帧画面被(bèi)分成不同类别的区域:如天(tiān)空,汽(qì)车,树木,道路,建筑物等。然后,用这些分割的(de)数据(jù)训练生成对抗网络,用来生(shēng)成这(zhè)些(xiē)对(duì)象的新画(huà)面 。
接下(xià)来,工程师们使用传(chuán)统的游(yóu)戏引擎创建(jiàn)了虚拟环境的基本(běn)拓扑结构。在(zài)该游戏演示中,使(shǐ)用的系统(tǒng)是虚幻引擎(qíng) 4,这是(shì)一(yī)种流行的引擎,被用于诸如堡垒之夜,绝地求生,战争机器4等多种游戏中。工(gōng)程师们使用此引擎作为框架(jià),然后利用深度学习算法(fǎ)实时生成每个类别(bié)的图形画面,并(bìng)将它们显示到游戏引擎(qíng)的(de)模型上(shàng) 。
“被创造的(de)世界的结构(gòu)还是用传统方法制作的,”Catanzaro解(jiě)释说(shuō),“人(rén)工智能产生的(de)唯一东西(xī)就是(shì)图形画面(miàn)。”他补(bǔ)充说(shuō),演示本身(shēn)很基础,主要由(yóu)一名工程师负(fù)责(zé)完成。“这主(zhǔ)要是用来做概(gài)念验证游戏(xì),而(ér)不是开发了一个真正的游戏(xì) 。”
图|不同AI模型生(shēng)成的画(huà)面对比。左上是经语义分割(gē)的图像;右上是(shì)pix2pixHD生成的画面;左下是(shì) COVST 生(shēng)成的(de)画(huà)面;右下是本文英伟(wěi)达的系统(tǒng)生(shēng)成的画面。(图源(yuán):英伟(wěi)达)
为(wéi)了创建(jiàn)这(zhè)个系统,英伟达的工程师(shī)克服了许多挑战,其中最大(dà)的挑战是对(duì)象(xiàng)持(chí)久性(object permanence)。也就是(shì)说,如果深度学习算法(fǎ)以每秒 25 帧的速率(lǜ)为这一虚拟世界生成图形,它们如何保持(chí)每一区域的对象看起来大致相同?Catanzaro这(zhè)个问题(tí)曾导致这个系统的初始结(jié)果“看起(qǐ)来很痛苦”,因为图形(xíng)的颜色和(hé)纹理 “每(měi)帧都会改变 ”。
而解决的方案就是给系统一个(gè)短期记忆,让系统生成(chéng)的每个新帧(zhēn)的时候与之前(qián)的帧进行比(bǐ)较 。试图去预测这些图(tú)像(xiàng)之间(jiān)运动(dòng)的东西(xī),并产生与屏幕上的内容一致的新郑但是这些计算都(dōu)很昂贵,因此游戏只能以(yǐ)每秒25帧的速度运行。
Catanzaro强调(diào),这项技术还处于早期阶(jiē)段,想(xiǎng)要让人工智(zhì)能生成的画(huà)面出现在消费者游戏中可能还需要几十(shí)年的(de)时间。他将这种情况与光(guāng)线追踪的发展进行了比较,光线跟踪是当前图形渲染中的热门(mén)技术,它可以实时生成(chéng)单(dān)独的光线,在(zài)虚(xū)拟(nǐ)环境(jìng)中(zhōng)创建逼真的反射,阴影和不(bú)透明度。Catanzaro表示:“第一次(cì)交互式光线追踪(zōng)演示已经是很久很久以前的事了,但直到(dào)几(jǐ)周前(qián)我们还没(méi)有在游戏中成功应用光(guāng)线跟踪技术”。
不过(guò),人工智能生成(chéng)的画(huà)面(miàn)工作确实在机器人和自动驾驶汽车等(děng)研究领域有(yǒu)潜在的应用前景,可以用来生成虚拟训练环(huán)境。例如,在大部分游(yóu)戏中,结构仍使(shǐ)用传统方法(fǎ)渲(xuàn)染,而AI用于创建其中的人或物体 。消费(fèi)者可以使用(yòng)智能手机自己捕捉素材,然后将这些数据上传(chuán)到云(yún)端,算法将通过学习将(jiāng)其插入到各种(zhǒng)游戏中。比如说,将其(qí)用来创建更像(xiàng)真人玩家的头像。
然而,这种技术(shù)带来了一些明显的问题。近年来,专家越来越担(dān)心有些人(rén)会使用 AI 生成的足以乱真的假情报进(jìn)行虚(xū)假宣传 。研究人员(yuán)展示,现(xiàn)在很(hěn)容易制(zhì)作(zuò)一些虚假的政治家和名人的镜(jìng)头,利用这些视频(pín)散播一些的虚假(jiǎ)消息,这将会是不法之徒一个很强大的(de)武(wǔ)器。如果推进这(zhè)项(xiàng)技术的发展并将这一(yī)研究(jiū)成果(guǒ)发布,英伟达(dá)在一定(dìng)程度上可以说(shuō)是这一(yī)潜在负面问题的推动者。
不过,英伟达表示,这并(bìng)不是(shì)一个新问题。“这(zhè)一(yī)技术可以用于制(zhì)作具(jù)有(yǒu)误(wù)导性的内容吗?是。但是任何(hé)渲染技术都可以(yǐ)用来做到这(zhè)一(yī)点 ,”Catanzaro表示,英(yīng)伟达(dá)正在与合作(zuò)伙伴一起研(yán)究检(jiǎn)测AI赝(yàn)品的方法,这种所(suǒ)谓的虚假信息的问题本(běn)质上是一个“信任问(wèn)题”。就像之前许多的“信任(rèn)问(wèn)题”一样(yàng),它必须通过一系(xì)列方法来解决,而不仅仅是通过技术(shù) 。
Catanzaro反问道(dào):“电力公(gōng)司(sī)创造的(de)电力可以(yǐ)为制作假视(shì)频(pín)的电脑(nǎo)供电,你觉得他(tā)们需不需要负责?”。
不过归(guī)根结底,对于(yú)英伟达来说,推动(dòng)人工智能生(shēng)成(chéng)的图形有一个明显的好处:它将有助于英伟达销售更多的硬件。自从深度(dù)学习(xí)热潮在2010年初兴起以来,英伟达的股价飙(biāo)升,很明显英伟达的计算机芯(xīn)片非常(cháng)适合机器学习(xí)研究和(hé)开(kāi)发(fā) 。
对于计算机图形(xíng)学(xué)的人工(gōng)智能革(gé)命是否会有利于(yú)英伟达公司的收(shōu)入,Catanzaro笑着说,至(zhì)少不会带来伤害。“任何能够提高生(shēng)成更逼真和更(gèng)具吸引(yǐn)力的图形的能力,都会对英伟达有利(lì) 。”