乐动网页版_乐动(中国)

自然语（yǔ）言（yán）处理(NLP)的一（yī）般处理流程！

1. 什么是NLP

自然语言处理 (Natural Language Processing) 是人（rén）工智能（AI）的一个子领（lǐng）域。自然语（yǔ）言（yán）处理是研究在人与人交互（hù）中以（yǐ）及在（zài）人与计算机交互中（zhōng）的语言问题的一门（mén）学科。为了建设和完善语（yǔ）言模型，自然语言处理建立（lì）计（jì）算框架，提出相应的方法来不断的完善设计各种实用系统，并探（tàn）讨这些实用系（xì）统的评测方法。

2. NLP主要研究方向

信息抽取（qǔ）：从给定文本中抽取重要的信息，比如时间、地点、人（rén）物（wù）、事件（jiàn）、原因、结果（guǒ）、数字、日期、货币、专有名词（cí）等等。通（tōng）俗说来，就是要（yào）了解（jiě）谁在什么时候、什么（me）原因、对（duì）谁、做了什么事、有什么结果。

文本生成：机器像（xiàng）人一（yī）样使用（yòng）自然语言进（jìn）行表（biǎo）达和写作。依（yī）据输（shū）入的不同（tóng），文本生成技术（shù）主要（yào）包括数据到文本生成和文本到（dào）文本生成。数据到文本生成是指将包含键值（zhí）对（duì）的数据转化为（wéi）自然（rán）语言（yán）文（wén）本；文本到文本生成对输（shū）入文本进行转化和处理从而产生新的文本。

问答（dá）系统：对（duì）一个自然语言表达的（de）问题，由问（wèn）答系统给出一个精准（zhǔn）的答案。需要对自然（rán）语（yǔ）言（yán）查询语句进行某种程（chéng）度的语（yǔ）义分析，包（bāo）括实体链接（jiē）、关系（xì）识（shí）别，形成逻辑表（biǎo）达式，然（rán）后到知识库（kù）中查找可能的候选答（dá）案并通过一个排序（xù）机制（zhì）找出最佳（jiā）的答案（àn）。

对话系统（tǒng）：系统通过（guò）一系列的对话，跟用（yòng）户进行聊（liáo）天、回答、完成某一（yī）项任务。涉及到（dào）用（yòng）户（hù）意（yì）图理（lǐ）解、通用（yòng）聊天（tiān）引擎、问答（dá）引（yǐn）擎（qíng）、对话管理等技术（shù）。此外，为了体（tǐ）现上下文相关，要具备多轮对话能力。

文（wén）本挖掘：包括文本聚类（lèi）、分（fèn）类、情感分析以及对挖掘的信息和（hé）知识（shí）的可视化、交（jiāo）互式的表达界面。目前主流的（de）技术都是基（jī）于统计机器学（xué）习的。

语音识别（bié）和生（shēng）成：语音识别是（shì）将输入计（jì）算机的语音（yīn）符号识别转换成书（shū）面语表示。语音生成又称文语转（zhuǎn）换（huàn）、语音合成，它是指将书面文本自动转换成对应的语音表（biǎo）征。

信息过滤：通过计算机系统自动识别（bié）和过滤符合特（tè）定（dìng）条件的文（wén）档信息。通常指网络有害信息（xī）的（de）自动识别（bié）和（hé）过（guò）滤，主要（yào）用于信息安（ān）全（quán）和防护，网络（luò）内容管理等（děng）。

舆情分析（xī）：是指收集和处理海量（liàng）信息（xī），自动化地对网络舆情进（jìn）行分析，以实现及（jí）时应对网（wǎng）络舆情的目的。

信息检索：对大规模的文档（dàng）进行索引（yǐn）。可简单对文（wén）档中的（de）词汇，赋之以不同的权重来建立索（suǒ）引，也可建立更加深层的索引。在查询（xún）的时候，对输入（rù）的查询（xún）表达式比如一（yī）个检（jiǎn）索词或者一个（gè）句子进行分（fèn）析，然后在索引（yǐn）里面查找匹配的候选文档，再根据一（yī）个排序机制把候（hòu）选文档排序，最后输（shū）出排（pái）序得分最高的文档。

机器（qì）翻译：把输入的源语（yǔ）言文本通过（guò）自动翻译（yì）获得另外一种（zhǒng）语言的（de）文本（běn）。机器翻译从最早（zǎo）的（de）基于规则的方法到二十（shí）年前的基于统计（jì）的方法，再（zài）到今天的基于神经网络（编码（mǎ）-解码）的方法，逐渐形成了一套比较严谨的方法体系。

3. NLP的发展

1950年前:图灵测（cè）试 1950年前阿兰·图灵图灵测试:人和机器进行交流，如果人无法判（pàn）断自己交（jiāo）流（liú）的对象是人还是机器（qì），就说（shuō）明这个（gè）机（jī）器具有智能。

1950-1970:主流:基于规则（zé）形式（shì）语言理论

乔姆斯基，根据数学（xué）中的（de）公理化（huà）方法研究自然语言，采用代数（shù）和集合论把形式（shì）语言（yán）定义为符号（hào）的序列。他试图使用有限的规则描述无限的语言现象，发（fā）现人类普遍（biàn）的语言机制，建立所谓的普（pǔ）遍语法。

1970-至今:主流:基于（yú）统计谷歌（gē）、微软、IBM，20世纪（jì）70年代，弗里德里克·贾里尼克及（jí）其领导的IBM华生实验室将语音识（shí）别率（lǜ）从70%提升到90%。 1988年（nián），IBM的彼得·布朗提出了基于（yú）统计的机器翻译（yì）方法。 2005年，Google机（jī）器翻译打败基于规则的Sys Tran。

2010年以后:逆（nì）袭:机器学（xué）习（xí）

AlphaGo先（xiān）后战胜李世石、柯洁等，掀起人工智能热潮。深度学习、人工神经网络成为（wéi）热（rè）词。领域:语音（yīn）识别、图像识别、机器（qì）翻译（yì）、自动驾驶、智能（néng）家居。

4. NLP任务的一般步骤

下（xià）面图片看不清楚的，可以百度脑图查看，点击链（liàn）接

5. NLP、CV，选哪个（gè）？

NLP：自然语言处理（lǐ），数据是文本。

CV：计算（suàn）机视觉，数据是图像。

两者属于不同（tóng）的领域，在遇到这个问题的时候，我（wǒ）也是犹豫了很（hěn）久，想（xiǎng）了（le）很多（duō），于是乎得出一（yī）个结论:都是（shì）利用（yòng）深度学（xué）习去解决现实世界（jiè）存在的问题，离开了CV，NLP存（cún）活不了；离开（kāi）了（le）NLP，CV存活不了。两者就像兄弟姐妹一样，整个“家（jiā）庭”不能分割但个体又存在差异！

NLP/CV属于两（liǎng）个（gè）不同的研究领域，都是（shì）很好的领域，可以根据自己的爱好作（zuò）出适合自己的选择，人工智能是一个多学科（kē）交叉的领（lǐng）域（yù），需要的（de）不仅（jǐn）仅是单方面的能力（lì），而是多方面（miàn）的（de）能力。对于每个人来说都（dōu）有自己的侧重（chóng）点，选择自己（jǐ）擅长的领域里持续深（shēn）耕，就（jiù）会有所成就！