乐动网页版_乐动(中国)


    咨询热线:021-80392549

    乐动网页版_乐动(中国) QQ在线 乐动网页版_乐动(中国) 企(qǐ)业微信(xìn)
    乐动网页版_乐动(中国)
    乐动网页版_乐动(中国) 资(zī)讯 > AI挖掘技术 > 正文

    自然语言处理(NLP)的(de)一般处理流程(chéng)!

    2020/05/253627

    自然语(yǔ)言(yán)处理(NLP)的一(yī)般处理流程!

    自然语(yǔ)言(yán)处理(NLP)的一般处理流程!


    1. 什么是NLP

    自然语言处理 (Natural Language Processing) 是人(rén)工智能(AI)的一个子领(lǐng)域。自然语(yǔ)言(yán)处理是研究在人与人交互(hù)中以(yǐ)及在(zài)人与计算机交互中(zhōng)的语言问题的一门(mén)学科。为了建设和完善语(yǔ)言模型,自然语言处理建立(lì)计(jì)算框架,提出相应的方法来不断的完善设计各种实用系统,并探(tàn)讨这些实用系(xì)统的评测方法。

    2. NLP主要研究方向

    信息抽取(qǔ):从给定文本中抽取重要的信息,比如时间、地点、人(rén)物(wù)、事件(jiàn)、原因、结果(guǒ)、数字、日期、货币、专有名词(cí)等等。通(tōng)俗说来,就是要(yào)了解(jiě)谁在什么时候、什么(me)原因、对(duì)谁、做了什么事、有什么结果。

    文本生成:机器像(xiàng)人一(yī)样使用(yòng)自然语言进(jìn)行表(biǎo)达和写作。依(yī)据输(shū)入的不同(tóng),文本生成技术(shù)主要(yào)包括数据到文本生成和文本到(dào)文本生成。数据到文本生成是指将包含键值(zhí)对(duì)的数据转化为(wéi)自然(rán)语言(yán)文(wén)本;文本到文本生成对输(shū)入文本进行转化和处理从而产生新的文本。

    问答(dá)系统:对(duì)一个自然语言表达的(de)问题,由问(wèn)答系统给出一个精准(zhǔn)的答案。需要对自然(rán)语(yǔ)言(yán)查询语句进行某种程(chéng)度的语(yǔ)义分析,包(bāo)括实体链接(jiē)、关系(xì)识(shí)别,形成逻辑表(biǎo)达式,然(rán)后到知识库(kù)中查找可能的候选答(dá)案并通过一个排序(xù)机制(zhì)找出最佳(jiā)的答案(àn)。

    对话系统(tǒng):系统通过(guò)一系列的对话,跟用(yòng)户进行聊(liáo)天、回答、完成某一(yī)项任务。涉及到(dào)用(yòng)户(hù)意(yì)图理(lǐ)解、通用(yòng)聊天(tiān)引擎、问答(dá)引(yǐn)擎(qíng)、对话管理等技术(shù)。此外,为了体(tǐ)现上下文相关,要具备多轮对话能力。

    文(wén)本挖掘:包括文本聚类(lèi)、分(fèn)类、情感分析以及对挖掘的信息和(hé)知识(shí)的可视化、交(jiāo)互式的表达界面。目前主流的(de)技术都是基(jī)于统计机器学(xué)习的。

    语音识别(bié)和生(shēng)成:语音识别是(shì)将输入计(jì)算机的语音(yīn)符号识别转换成书(shū)面语表示。语音生成又称文语转(zhuǎn)换(huàn)、语音合成,它是指将书面文本自动转换成对应的语音表(biǎo)征。

    信息过滤:通过计算机系统自动识别(bié)和过滤符合特(tè)定(dìng)条件的文(wén)档信息。通常指网络有害信息(xī)的(de)自动识别(bié)和(hé)过(guò)滤,主要(yào)用于信息安(ān)全(quán)和防护,网络(luò)内容管理等(děng)。

    舆情分析(xī):是指收集和处理海量(liàng)信息(xī),自动化地对网络舆情进(jìn)行分析,以实现及(jí)时应对网(wǎng)络舆情的目的。

    信息检索:对大规模的文档(dàng)进行索引(yǐn)。可简单对文(wén)档中的(de)词汇,赋之以不同的权重来建立索(suǒ)引,也可建立更加深层的索引。在查询(xún)的时候,对输入(rù)的查询(xún)表达式比如一(yī)个检(jiǎn)索词或者一个(gè)句子进行分(fèn)析,然后在索引(yǐn)里面查找匹配的候选文档,再根据一(yī)个排序机制把候(hòu)选文档排序,最后输(shū)出排(pái)序得分最高的文档。

    机器(qì)翻译:把输入的源语(yǔ)言文本通过(guò)自动翻译(yì)获得另外一种(zhǒng)语言的(de)文本(běn)。机器翻译从最早(zǎo)的(de)基于规则的方法到二十(shí)年前的基于统计(jì)的方法,再(zài)到今天的基于神经网络(编码(mǎ)-解码)的方法,逐渐形成了一套比较严谨的方法体系。

    3. NLP的发展

    1950年前:图灵测(cè)试 1950年前阿兰·图灵图灵测试:人和机器进行交流,如果人无法判(pàn)断自己交(jiāo)流(liú)的对象是人还是机器(qì),就说(shuō)明这个(gè)机(jī)器具有智能。

    1950-1970:主流:基于规则(zé)形式(shì)语言理论

    乔姆斯基,根据数学(xué)中的(de)公理化(huà)方法研究自然语言,采用代数(shù)和集合论把形式(shì)语言(yán)定义为符号(hào)的序列。他试图使用有限的规则描述无限的语言现象,发(fā)现人类普遍(biàn)的语言机制,建立所谓的普(pǔ)遍语法。

    1970-至今:主流:基于(yú)统计 谷歌(gē)、微软、IBM,20世纪(jì)70年代,弗里德里克·贾里尼克及(jí)其领导的IBM华生实验室将语音识(shí)别率(lǜ)从70%提升到90%。 1988年(nián),IBM的彼得·布朗提出了基于(yú)统计的机器翻译(yì)方法。 2005年,Google机(jī)器翻译打败基于规则的Sys Tran。

    2010年以后:逆(nì)袭:机器学(xué)习(xí)

    AlphaGo先(xiān)后战胜李世石、柯洁等,掀起人工智能热潮。深度学习、人工神经网络成为(wéi)热(rè)词。领域:语音(yīn)识别、图像识别、机器(qì)翻译(yì)、自动驾驶、智能(néng)家居。

    4. NLP任务的一般步骤

    下(xià)面图片看不清楚的,可以百度脑图查看,点击链(liàn)接


    5. NLP、CV,选哪个(gè)?

    NLP:自然语言处理(lǐ),数据是文本。

    CV:计算(suàn)机视觉,数据是图像。

    两者属于不同(tóng)的领域,在遇到这个问题的时候,我(wǒ)也是犹豫了很(hěn)久,想(xiǎng)了(le)很多(duō),于是乎得出一(yī)个结论:都是(shì)利用(yòng)深度学(xué)习去解决现实世界(jiè)存在的问题,离开了CV,NLP存(cún)活不了;离开(kāi)了(le)NLP,CV存活不了。两者就像兄弟姐妹一样,整个“家(jiā)庭”不能分割但个体又存在差异!

    NLP/CV属于两(liǎng)个(gè)不同的研究领域,都是(shì)很好的领域,可以根据自己的爱好作(zuò)出适合自己的选择,人工智能是一个多学科(kē)交叉的领(lǐng)域(yù),需要的(de)不仅(jǐn)仅是单方面的能力(lì),而是多方面(miàn)的(de)能力。对于每个人来说都(dōu)有自己的侧重(chóng)点,选择自己(jǐ)擅长的领域里持续深(shēn)耕,就(jiù)会有所成就!

    关键词: AI挖掘(jué)技术




    AI人工智能网(wǎng)声明:

    凡(fán)资讯来源注明为其他(tā)媒体(tǐ)来源的信(xìn)息,均为转载(zǎi)自其他媒体,并不代表本网站赞同其观点(diǎn),也不代表本网站对(duì)其真实性负责。您若对该文章内容有任何(hé)疑问或质疑,请立即与(yǔ)网站(www.bz.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给您回应并做处理(lǐ)。


    联系电话:021-31666777   新闻、技术文章投稿QQ:3267146135   投(tóu)稿邮箱:syy@gongboshi.com

    工博士人工智能网
    乐动网页版_乐动(中国)
    扫描二维码关(guān)注微信
    扫码(mǎ)反馈

    扫一扫(sǎo),反(fǎn)馈当前页面

    咨询反馈
    扫码关注

    微信(xìn)公众号(hào)

    返回顶部(bù)

    乐动网页版_乐动(中国)

    乐动网页版_乐动(中国)