一条狗,即使是(shì)之前(qián)从未见过的品种、颜色(sè),我们也能一眼(yǎn)认出它。
对周(zhōu)遭任何(hé)变(biàn)化的感知是人类与生俱来的(de)能力。
但(dàn)是人工智能(néng)系统就不一样了,即使级别(bié)SOTA,能完成(chéng)无(wú)数人(rén)类完成不了的任务(wù),但也有很多对人(rén)类来说轻(qīng)而易举的事情,它却搞不定,比如,让金毛换个角度(dù):正面、侧(cè)面、前(qián)面、后(hòu)面,人(rén)工智能可(kě)能会识别地(dì)很(hěn)挣扎。
深(shēn)度学(xué)习模型擅长解释(shì)像素和(hé)标签之间的统(tǒng)计模式,但却(què)很难通过(guò)许多潜(qián)在(zài)的自(zì)然(rán)变化正确识别对象。
那是扫(sǎo)雪机在路上扫雪吗?还是一辆校(xiào)车侧翻了?
上(shàng)图是(shì)根据M.A. Alcorn等人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘制,显示了一个深(shēn)度神(shén)经网络将一辆(liàng)公共汽车错误地分类为扫雪车。
人类可以(yǐ)瞬间知道,但(dàn)是颜色(sè)、大(dà)小和透视等(děng)因素使(shǐ)情况复杂化,增(zēng)加了人工(gōng)智能模型的预测难度。
Facebook AI一直在(zài)探索如何更(gèng)好地捕(bǔ)捉(zhuō)自然变化,在(zài)这方面,传统(tǒng)解决方案有很(hěn)大局限性,即(jí)所谓的解纠(jiū)缠(disentanglement)。我们(men)最(zuì)近还提(tí)出(chū)了等变化移位算子(equivariant shift operator)的概念,这是一(yī)种替(tì)代解的(de)概念证明,可(kě)以帮助模型理(lǐ)解通过模拟最常见(jiàn)的变换,物体可能(néng)会发生(shēng)怎样的(de)变化。
目(mù)前,Facebook AI在(zài)这方面的工作主要是理论(lùn)性的,但是对(duì)于深(shēn)度(dù)学习模型,特别(bié)是计算机视觉潜力巨大: 增加了可解释性和准确性(xìng),即使在小数据集上训练也有更好的性能,并提高了泛化(huà)能(néng)力。Facebook AI希(xī)望这些贡献能够使计算机视觉向(xiàng)前推进一步,更(gèng)好地理解视觉世(shì)界的复杂性。
现(xiàn)行方法的局限
目(mù)前(qián)的解(jiě)纠(jiū)缠(chán)方法试图通(tōng)过将模型中的每个因子编码到模型内(nèi)部(bù)表示(shì)的(de)一个(gè)单独的子(zǐ)空(kōng)间中,来学习模型中对象的基本变换(huàn)。
例(lì)如,解纠缠(chán)可(kě)能(néng)将狗图像的(de)数据集编(biān)码为(wéi)姿态、颜(yán)色和品(pǐn)种子空间(jiān)。
这(zhè)种(zhǒng)方法在识别刚性数据集的变(biàn)化因素方面很有优势,比如(rú)一个单一(yī)的 MNIST 数字或者(zhě)一(yī)个(gè)单一的对象(xiàng),比(bǐ)如一把椅子,但(dàn)是(shì)我们已经发现,在多个分类中,解(jiě)纠(jiū)缠的表现(xiàn)很差(chà)。
想象一下多个旋转的形状,比如(rú)三角形和正方形(xíng)。解纠缠模型试(shì)图(tú)将物体的形状和方向这两(liǎng)个变化因素分离成两个变化因素(sù)。
下图说明了传统的解纠缠是(shì)无法在多个形状的数据集中孤立(lì)旋转的。我们期望高亮显示的形状会旋转(zhuǎn),但是由于解纠缠失(shī)败,形状仍(réng)然是固定的。
解纠缠还带来了拓(tuò)扑缺陷,这是一系列众多变换中的另一(yī)个问(wèn)题。拓扑缺陷(xiàn)违(wéi)背连续(xù)性——深度学习模型的本质(zhì)属性。如(rú)果没有(yǒu)连续(xù)性,深度学(xué)习模型可能(néng)很难有效地学习(xí)数据中的模式。
想象(xiàng)一下正三角形的旋转。旋(xuán)转120度的正三角形与原来的三角形无法区(qū)分,导致在方向空间中有相同的表示。然(rán)而,通过在三角(jiǎo)形的(de)一个角(jiǎo)上加一个无穷小的点,表示变得可辨别,违反了连(lián)续性。附近(jìn)的(de)图像映(yìng)射到相距较远的图像。Facebook AI的(de)研究还表明,拓扑缺(quē)陷出(chū)现在非对称形(xíng)状和许多其他常见的变换中。
利用等变化算子揭示变(biàn)化因子
有一个数学分支「群论」可以(yǐ)教我(wǒ)们应用等变化算子的很多知识。它表明,一个直观(guān)的方式来理(lǐ)解(jiě)变化因素是将他们(men)模拟为(wéi)一组转(zhuǎn)换。例(lì)如,一个(gè)三角形的旋转有一个组的结(jié)构: 90度旋转和30度旋转结合起来产生120度旋转。
Facebook AI利用这些(xiē)想(xiǎng)法来识别传统解纠(jiū)缠的缺点,并确定如何训练等变化算子来解纠(jiū)缠(chán)。我们(men)提出(chū)了一个等变化算子,称为移位算子。这是一个(gè)矩阵,其块体模仿了常见变(biàn)换的组结构--旋(xuán)转、平移和重缩(suō)放。然后在原(yuán)始图像和(hé)它们的转(zhuǎn)换上训练一个人工智能模(mó)型。
这(zhè)样就会发现,即使在包含多个(gè)类的数据(jù)集中,移位算子也能(néng)成功地(dì)学(xué)习变换--这正是(shì)传统(tǒng)解纠缠经常失败的(de)条件(jiàn)。