据VentureBeat报道,在语(yǔ)音嘈(cáo)杂的环境中,要想分辨出有几个(gè)人讲话、在什么时间讲(jiǎng)话,对于机器(qì)来说(shuō)非常困难。但谷歌人工智能(AI)研究部门在语音识别方面(miàn)取得了新进展,能以(yǐ)92%的准确率识别出每个人声音的专属(shǔ)模式(shì)。
谷歌AI研究部门在(zài)最新(xīn)名为《FullySupervisedSpeakerDiarization》的论(lùn)文和相(xiàng)关博(bó)客文章中,研究人(rén)员描(miáo)述了(le)一种新的AI系(xì)统,它“能以一种更有效的方式识别声音”。
这(zhè)套系统涉及(jí)到Speakerdiarization任务,即需要(yào)标注出(chū)“谁”从“什么时候”到“什么时(shí)候”在说话,将语音样本分割成独特(tè)的、同(tóng)构片段(duàn)的过(guò)程。强大的AI系统(tǒng)必须能够将新的演讲者发(fā)音与它(tā)以前从(cóng)未遇到过的语音(yīn)片段关联(lián)起来。
这篇论(lùn)文的作者声称,核心算法已(yǐ)经可在(zài)Github上的(de)开源软件中可(kě)用(yòng),它实现了(le)一个在线二值化(huà)错误(wù)率(DER),在NISTSRE2000CALLHOME基准上是7.6%,这对于实时应用来说已经足(zú)够低了(le),而(ér)谷歌之前使用的(de)方法DER为8.8%。
谷(gǔ)歌研究人员的(de)新方法是通(tōng)过递归(guī)神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数(shù)学表(biǎo)示),递归神经网络是(shì)一种机器(qì)学习模型,它(tā)可以利用(yòng)内部状态来处理(lǐ)输入序列。每个演讲者都从自己的RNN实例开始,该(gāi)实例不断更新给定新嵌入(rù)的RNN状(zhuàng)态,使系统能够学习发言(yán)者共享的(de)高级知识。
研究(jiū)人员在(zài)论文中写道:“由于该系统的(de)所有组件都可以(yǐ)在监督环境下学习,所以在(zài)有高(gāo)质量时间标记演讲者标签训练数(shù)据的情况下,它比无监督系统更受青睐(lài)。我(wǒ)们的系统受到全面监督,能够从带有时间戳的演讲者标签例子(zǐ)中学习。”
在未来的(de)工作中,研究团队计划改进模型,使其能够集成上(shàng)下(xià)文信息来执行脱机解码(mǎ),他们希望这将进一(yī)步减少(shǎo)DER。研(yán)究人员还希望能够直接(jiē)对声学特征进行建模,这样整个(gè)Speakerdiarization系(xì)统(tǒng)就可以进行端到端训练(liàn)。