九游官方网页版-九游(中国)





    1. 咨询热线:021-80392549

      九游官方网页版-九游(中国) QQ在线 九游官方网页版-九游(中国) 企业微信(xìn)
      九游官方网页版-九游(中国)
      九游官方网页版-九游(中国) 资讯 > AI挖掘技术 > 正文

      自然语(yǔ)言处理入门教(jiāo)程

      2020/05/253515

      自(zì)然(rán)语言处理入门(mén)教程

      自然语言处理(lǐ)(NLP)是计算机科学领域和人工智能领域中的一个分支,它与计算机和人类之间使用自然语言进行互动(dòng)密切相关。NLP的最终目标是使计算机能够(gòu)像(xiàng)人类一样理解语言(yán)。它是虚拟(nǐ)助手、语音识别、情感(gǎn)分析、自(zì)动文本摘要、机(jī)器翻译等的驱动力。在(zài)这篇文章中,你将学习到自(zì)然语言处理(lǐ)的基础知识,深入了解到它的一些技术,了解(jiě)到NLP如何(hé)从深(shēn)度学习(xí)的最新(xīn)进展。

      1.简介

      自然(rán)语言处理(NLP)是计算机科学、语言学和(hé)机器(qì)学习的交叉点(diǎn),它关(guān)注计算(suàn)机(jī)与人类之间使用自然(rán)语言中的沟通交流。总之(zhī),NLP致力于让计(jì)算机能够理解和生(shēng)成人类语言。NLP技术应用于(yú)多个(gè)领域,比如天猫精灵和(hé)Siri这(zhè)样的(de)语(yǔ)音助手,还有(yǒu)机(jī)器翻(fān)译和文本过滤等(děng)。机器学习是受NLP影响最深远的领(lǐng)域之一,尤为突(tū)出的(de)是深度(dù)学习(xí)技术。该领域分为以下三个部分:

      1.语音识别(bié):将口语翻译(yì)成文本。

      2.自(zì)然语言理解:计算机理解(jiě)人类的能力。

      3.自然语言生(shēng)成:计算机生成自然语(yǔ)言(yán)。

      2.为什么NLP很难

      人(rén)类语(yǔ)言(yán)有其特殊性。人类语言专门用于(yú)传达讲话者和写作者的意思,即使小孩(hái)子能够很快学会,它依(yī)然是一个复杂(zá)的系统(tǒng)。它的另一个显著之处(chù)在于它完(wán)全与符号有关。Chris Manning(斯(sī)坦福教授(shòu))表示,它是一个离(lí)散的、象征性的、绝对(duì)的信(xìn)号系统,这意(yì)味着人们可以通(tōng)过使用不同(tóng)的方式(shì)传达相同的含义,比如演说(shuō),手势,信号等。人类大脑对(duì)这些(xiē)符号的编码是持续的激活模式,在这个模式(shì)中,符号通(tōng)过声音和(hé)视觉的连续信号(hào)实(shí)现传输。

      由于其复杂性,理解(jiě)人类语言被认为是(shì)一(yī)项艰巨的任务。例如,在句子中排(pái)列单词有无数种不同的方法。此外,一(yī)个单词可(kě)以有(yǒu)多种含义,并且正确解释(shì)句子需要恰当的语境信息。每种语(yǔ)言或多或少都是独特且含糊的。比如(rú):“The Pope’s baby steps on gays”,这句(jù)话显然有两种截然不同的解(jiě)释,这是反映NLP中的(de)困难(nán)之处的一个很好的例子。

      随着计算机对语言的理解愈渐完美,将会产生可以(yǐ)处理互(hù)联网上全部信息的人工智能(AI),继而产生(shēng)强人工智(zhì)能(AGI)。

      3.句法和语(yǔ)义分析

      句法(fǎ)分析和语义分析是理解(jiě)自(zì)然语言的两种主要(yào)方法。语言是一(yī)组意义的语(yǔ)句,但是(shì)什么(me)使(shǐ)语句有意义(yì)呢?实际(jì)上,你可以将有效性分为(wéi)两(liǎng)类(lèi):句(jù)法(fǎ)和语(yǔ)义。术语(yǔ)“句法”是指文本的语法结(jié)构,而术语“语义”是指由它表达的含义。但是,句法(fǎ)上正确(què)的语句(jù)不必在语义(yì)上正确。只需(xū)看看(kàn)下面的例子。语句“cow kow supremely”在语法上是有效的(主语-动词-副词),但没有任何意义。

      句法分析:

      自然语言处(chù)理入(rù)门教程(chéng)

      句法分(fèn)析,也称为(wéi)语法分(fèn)析或解析,是通过遵循正(zhèng)式(shì)语法规(guī)则来分(fèn)析(xī)自然语(yǔ)言(yán)的过程。语法规则适用于单词和词组,而不是单(dān)个单词。语法(fǎ)分析主要为(wéi)文本分配语(yǔ)义结构。

      语义分析:

      我们理解他人的语言是一种无意识(shí)的过程,依赖(lài)于(yú)直觉和对语言本身的认识。因此,我(wǒ)们理解语(yǔ)言的方式很大程度上取(qǔ)决于意义和语境(jìng)。计算机却(què)不能依赖(lài)上述方法(fǎ),需要采用不(bú)同的途径(jìng)。 “语(yǔ)义”这个词是一个(gè)语言术语,意思与(yǔ)意义或逻辑相近。

      因(yīn)此,语义分(fèn)析是理解单词、符号和语句(jù)结构的含(hán)义和(hé)解释的(de)过程,这使计算机能够以(yǐ)人类的方式理解部分涉及意义和语境的自(zì)然(rán)语(yǔ)言(yán)。为(wéi)什么说只(zhī)能部分(fèn)理(lǐ)解呢?是因为(wéi)语义分析是NLP中最棘手的部(bù)分之一,仍(réng)未完全解(jiě)决。例如,语音(yīn)识别技(jì)术已非常成熟,并且工作近乎(hū)完美,但仍然缺(quē)乏在自(zì)然语言理解(例如语义)中的熟练程度。手机基本上可以(yǐ)理解我们所说的内容,但通(tōng)常无法用(yòng)它做任何事(shì)情,因(yīn)为它(tā)不了解其背后意(yì)义(yì)。

      4.理解文本的技巧

      下(xià)面我们(men)将讨论多种(zhǒng)用(yòng)于自然语言处理的现(xiàn)行技术。

      什么是解析?首先,让我们看一下词典释义:

      解析—“将句子(zǐ)分解为其(qí)组成(chéng)部分,并阐述(shù)各部分(fèn)的句法角色。”

      实际(jì)上解释的已经非常(cháng)到位,但它可以更全面一些。解析是(shì)指计算(suàn)机(jī)对句子的形式分析(xī),其结果(guǒ)是一个解析树,这(zhè)个解析树可以可视化地显示句子成分(fèn)之(zhī)间(jiān)的句法关系,用于进一步处理和(hé)理解(jiě)。

      在(zài)下面你可以(yǐ)看到(dào)句子“The thief robbed the apartment”的解析树,以及由它传(chuán)达的三(sān)种不同信息(xī)类(lèi)型的描(miáo)述。

      自然语(yǔ)言处理入门教程

      我先(xiān)看单个单词(cí)正(zhèng)上方的字母,它们(men)用于显示每个单词的词性(名词-N,动词-V和限定词-DT)。我们再看(kàn)解析树中更(gèng)高的层(céng)级,一些单词(cí)进行层次分组(zǔ)组成短语。例如,“the thief”是一个名(míng)词(cí)短(duǎn)语(NP),“robbed the apartment”是一个动词(cí)短(duǎn)语(VP),这(zhè)些短(duǎn)语一起形成一个句子(S),在树中标记在更高(gāo)的层级(jí)。

      这些短语以名词为主体,包含一个或多个单(dān)词,可能(néng)还(hái)包含描(miáo)述性词语(yǔ)、动词或(huò)副词,简(jiǎn)言之,就是把把名词和与(yǔ)其相关(guān)的单(dān)词(cí)组合在一起。

      从解析(xī)树中还能看出,单(dān)词的表述结构影响其(qí)在句中的语法关系(xì)。例如(rú),在此结(jié)构(gòu)中,“thief”是“robbed”的主(zhǔ)语。

      结合结构(gòu)来看(kàn),动(dòng)词“robbed”,上方标有“V”,更(gèng)上一级标有(yǒu)“VP”;主语“thief”,上方(fāng)标有N和(hé)“NP”,通(tōng)过(guò)“S”联(lián)系在(zài)一起。这就像主语—动词关(guān)系的(de)模板,同样还有许(xǔ)多其他类型的关系。

      词干提取:

      词干提取是一种来(lái)自形态学(xué)和信息检索的(de)技(jì)术,在NLP中用于预(yù)处理和效率提升。但是,我(wǒ)们(men)首先(xiān)看(kàn)一(yī)下词典(diǎn)中的释义:词干 — “起源于或由其(qí)引起。”

      基本上,“词干提(tí)取”是将单(dān)词进行缩减得到词干的(de)过程,而“词干”的实际意义是是(shì)在删除单词(cí)的所有(yǒu)的前缀后缀之后保(bǎo)留的一(yī)部分。例如,“touched”,它的词干是“touch”,同时“touch”也是(shì)“touching”等词(cí)的词干。

      为什么需要词干?因为(wéi)我们会遇到不同(tóng)的词汇变形,而实际(jì)上它们具有相同的词干和意义。举例来说:

      # I was taking a ride in the car

      # I was riding in the car.

      这两个句子意思是一致(zhì)的,ride和riding的用法也是相同的。

      词(cí)汇表中所有(yǒu)的单词有不(bú)同的注释,其中还(hái)包括大量实际意义相同的(de)单(dān)词,要存储(chǔ)它(tā)们,需(xū)要一个庞(páng)大数据库,但是通过词干提取,仅关注单词(cí)的词干(gàn),可以很好地解(jiě)决这个问题。现行(háng)的通用算法之一是(shì)1979年的“Porter Stemming Algorithm”(波特(tè)词干算法),非(fēi)常使用便捷(jié)。

      文(wén)字(zì)分割:

      NLP中的文(wén)本分(fèn)割是将文(wén)本转换为有意(yì)义(yì)的单元的过程,可以(yǐ)是单(dān)词、句子、也可以是不(bú)同的主(zhǔ)题(tí)或潜在的意图等(děng)。在(zài)文本分割中,文本根据不同语种被分割为成份单词,由于人类语言的(de)复杂性,通常比较难。举个例子,在英(yīng)语中利用空格来(lái)分隔单(dān)词,相对高效(xiào)实用,但是也有(yǒu)像“ice box”这类(lèi)词(cí)语的例外,ice和box这两个由(yóu)空格隔开的(de)词合并一起使用才(cái)有原本含义的,所以人们(men)有时把它(tā)写作(zuò)“ice-box”,那么就给文字分割(gē)带来了难题。

      命名实(shí)体识别(bié):

      命名实体识别(NER)用于(yú)确定文本中哪些词条属(shǔ)于命名实体,这些词条可以被定位并归入预定义的类(lèi)别,类别的范围包括人名,组织,地(dì)点,还有货币价(jià)值(zhí)和百分(fèn)比。

      看下面的例子:

      NER之前:Martin bought 300 shares of SAP in 2016.

      NER之后:[Martin]Person bought 300 shares of [SAP]Organization in [2016]Time.

      关系抽取:

      关系提取采用(yòng)“命名实体识别(NER)”的(de)命名实体,并识别它们(men)之间的(de)语义关(guān)系。这可能意味着它能够(gòu)发现文本中词语之间的(de)关联性,例如谁与谁结婚,某人在哪个(gè)公司工作等。这个问题(tí)也可以转换为分(fèn)类问(wèn)题,然后为每(měi)种(zhǒng)关(guān)系(xì)类型训练机(jī)器学习模型。

      情感分析(xī):

      通过情(qíng)感分析,我们想要确定(dìng)例如说话者或作者(zhě)关于文档,互动或事件的态度(例如情(qíng)绪)。因(yīn)此(cǐ),需要理解文(wén)本以预测潜在(zài)意(yì)图(tú)是一种(zhǒng)自然语(yǔ)言(yán)处理(lǐ)问题(tí)。情绪主要分为积极,消(xiāo)极和(hé)中性两(liǎng)类。通过使用情(qíng)感(gǎn)分析,我们希(xī)望根据他撰(zhuàn)写的关(guān)于产品的评论来(lái)预测客(kè)户(hù)对产品(pǐn)的看法和态度。因此,情感分(fèn)析广(guǎng)泛(fàn)应用于评(píng)论,调查,文档等等

      如果你对使用Python中的某些技术(shù)感兴趣,可以(yǐ)查看(kàn)我(wǒ)创(chuàng)建的Python的自然(rán)语(yǔ)言工具包(NLTK)的Jupyter Notebook。你(nǐ)还可(kě)以查看我的博客文章,了解如何使(shǐ)用Keras构建神经网络,我将训练神经(jīng)网络进行(háng)情感分(fèn)析。

      5.深(shēn)度(dù)学习和NLP

      深(shēn)度学习(xí)和自然语言的核(hé)心是“词义”,在这里,单(dān)词用(yòng)一(yī)个实数向量(liàng)来表示。因此,通过向(xiàng)量(liàng)来(lái)代表(biǎo)单词单词,我们(men)可以(yǐ)将单词置于高维度(dù)的空间(jiān)中,由向量表示的单词起到语义空间(jiān)的作用。这仅仅意味(wèi)着在该(gāi)高(gāo)维向(xiàng)量空间中,形近意近的单词倾向于聚(jù)集在一起。下图(tú)中,可以(yǐ)看到(dào)单词含义的直观展示(shì):

      自(zì)然(rán)语言处理入门教程

      在此空间中,如果想(xiǎng)要知道某一组(zǔ)聚(jù)集成类的单词的含义,可以通过(guò)使用主成分分析法(PCA),也(yě)可(kě)以使用(yòng)降(jiàng)维法。但(dàn)这些方法(fǎ)太(tài)简(jiǎn)单并且会遗漏了周(zhōu)边的大量信息,因而产生误差。在研究的(de)初始阶(jiē)段,这些方法很好用,(如数据科学中的(de)逻(luó)辑或线性(xìng)回归)但并不是前(qián)沿技(jì)术。

      我们还(hái)可以将单词的一部分(fèn)当作向量,这些向量可以代表单词的含义。想象一下(xià)“undesirability”这个词。使用“形态学方法”,它涉及一个词所具有的不(bú)同部分,我们认为它由词(cí)素(单词部分)构成:“Un + desire + able + ity”。每个语素都有自己(jǐ)的(de)向量。这允许我们(men)构(gòu)建一个神经(jīng)网络,它可(kě)以构成(chéng)一个更大的单位的意义,而更大的单(dān)位又由所有这(zhè)些语素组(zǔ)成。

      深度学(xué)习还(hái)可以通过创建(jiàn)句法分析器来理解句子的结构,谷歌(gē)正在使用这样的依赖解析技术,在他们的“McParseface”和(hé)“SyntaxNet”(两种语言解析器),不(bú)过(guò)更加宏大,更(gèng)加(jiā)复杂。

      通过分析句子结构,我们(men)开始理解句子的意义,可(kě)以(yǐ)从单词(cí)的含义开(kāi)始,也可以从整个(gè)短语(yǔ)和句子开始(shǐ),无论单词的意义、短语还是句子,都(dōu)用向量来表示。如(rú)果想知道句子之间的关系(xì),我们(men)可以创建神经网络来帮助分析。

      深度学习也适用于情感分析。请看这个电影评论:“这部电影不在乎是不是巧妙,也不在(zài)乎幽默与否”。传统的机器学习算(suàn)法(fǎ)会认为(wéi)这是一(yī)个积极的评论,因为“聪明”和“幽默(mò)”是(shì)积(jī)极的词(cí)汇,但是(shì)神经网(wǎng)络(luò)能够识别出(chū)它的(de)真正含义(yì)。

      另(lìng)外,深度学习算法实现(xiàn)的机器翻译中,它(tā)从句子开始翻译,并生成一个(gè)向量,然(rán)后(hòu)用另外一种语言生成所需要的信息。

      总而(ér)言之,NLP与深度(dù)学习相结合,就是表示单(dān)词、短语的向量,以及它们的含(hán)义。

      关键词: AI挖掘技术




      AI人工智能网(wǎng)声明:

      凡资(zī)讯来源注(zhù)明为其他媒体来源的信息(xī),均为(wéi)转载自其他(tā)媒体(tǐ),并不代(dài)表本网(wǎng)站(zhàn)赞同其观点,也不代表本网站对其真(zhēn)实性负责(zé)。您若(ruò)对该文章(zhāng)内容有(yǒu)任何疑问或质疑(yí),请立(lì)即与网(wǎng)站(www.baise.yingtan.bynr.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给您(nín)回应并做(zuò)处理。


      联系电话:021-31666777   新闻、技术文(wén)章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

      工博士人工智能网
      九游官方网页版-九游(中国)
      扫描二(èr)维(wéi)码关注微信
      扫码反(fǎn)馈(kuì)

      扫(sǎo)一扫,反(fǎn)馈当前页面(miàn)

      咨询(xún)反馈
      扫(sǎo)码关注

      微信公众号(hào)

      返回顶部

      九游官方网页版-九游(中国)

      九游官方网页版-九游(中国)