网站大量收购独家精品文档,联系QQ:2885784924

人工智能应用基础 课件 项目6 自然语言处理.pptx

人工智能应用基础 课件 项目6 自然语言处理.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;技术篇

项目5?自然语言处理;01;;;;为了使用人工智能技术理解文本内容以及发掘文本的潜在语义,需要建立庞大的语料库,将文字编码为机器能“阅读”的数据格式。当遇到大量的文本信息,诸如博客,新闻,书籍等大文档,怎么快速的从中理解关键信息就是自然语言处理可以发挥作用的地方。

全面了解自然语言处理的关键技术,需要学习以下内容:;;文本表示

自然语言处理中的第一个关键步骤是将原始文本转换为计算机可以有效处理的格式。最基本的处理流程包括预处理、分词、编码三个步骤。;编码的过程

①预处理:在处理文本之前,文本需要标准化以确保一致性,如删除标点符号。对于英文来说还需要统一字母大小写,或者一些缩写的形式,比如:“I’m”和“Iam”。

②分词:预处理后的文本需要拆分为单词,也称为token。例如,句子“我爱北京天安门”,分词结果为:“我/爱/北京/天安门”,而英文句子的分词可以根据单词之间的空格进行拆分。

③编码:由于计算机以数字为依据进行操作,每个token都会转换为数字表示。最简单的方法可以为每个token分配一个唯一的数字标识符。“我/正在/学习/人工智能”分配的数字分别为5,22,16,73。除了这个直接转换为数字的方法,也可以将token转换成一个多维向量的形式,叫做独热编码(one-hot);独热编码

基本思想是使用一个跟句子长度一样的向量来表示一个词,向量中只在该词出现的位置设置为1,其余全部为0。比如我们的句子一共有4个词{我,正在,学习,人工智能},那么向量长度则为4,“我”就表示为[1,0,0,0,],“正在”就表示为[0,1,0,0],“学习”就表示为[0,0,1,0],“人工智能”就表示为[0,0,0,1]。;词嵌入

词嵌入将文本表示为一个词向量,是一种将词汇表中的每个单词映射到一个高维向量的技术。

将独热编码改成词向量后,男人、女人、国王、皇后四个词语,映射到一个7维的空间中,每个词语都对应了一个7维的向量。这样,每个单词在这个空间内都有一个唯一的、稠密的实数向量作为表示,称为词向量。;词嵌入

词向量可以发掘出词与词的类比关系,我们可以在词向量上做加法和减法,最后得到一些有趣???结果。

比如:国王-男人+女人=皇后,国王-皇后=男人-女人。

按照这种方法表示出:中国-北京=法国-巴黎,do-did=go–went等等。;词向量的应用

假设小明要做一个性格测试,要从不同维度上给自己在0到100的范围打分。;词向量的应用

小明认为自己比较外向,给自己在“外向-内向”的维度上在打了20分。这里0分是极度外向,100分是极度内向。然后标准化一下得分,使其保持在-1和1之间,得到的分数是-0.4,这样小明在“外向-内向”的维度由一个实数-0.4来表示,该维度可看成是描述性格的一个特征。;词向量的应用

按照同样的方法在第二个特征上打分,先在0~100之间打分,再标准化后得到0.8。现在小明的性格可以由[-0.4,0.8]的二维向量来表示。;词向量的应用

可以根据这个向量在前两个特征上的得分看对方是否和自己性格相似,这时候的性格只考虑了二个特征维度。;词向量的应用

对性格特征完整打分后转换成4维向量,每一个维度上的数字就代表性格中某一特征的得分,计算机很容易能计算出这些向量之间的相似程度。如果将它运用到单词中,就是词嵌入。;词向量的应用

选择一些英文单语如:cat,kitten,dog,houses,利用词嵌入生成多维的词向量。然后使用降维算法,将词向量降维至2维,从而在平面上将词向量绘制出来。

在自然语言处理中,词嵌入把单词(word)转换成实数向量(vector),因此大家都也把词嵌入称为word2vec,用到的技术最多的也是神经网络。

;词向量的应用

当嵌入“学习”这个词,可以把“我”,“正在”,“学习”,“人工智能”这几个上下文单词一同输入神经网络,这样能够更好的表现“学习”在语句中的含义与位置。当然,输入到神经网络的是这些单词的编码,可以是简单的数字编码,也可以是独热编码,最终输出“学习”这个词的词向量。

;文档主题分类

对于多个单词组成的句子,我们利用词嵌入技术将句子中的单词生成对应的词向量后,将这些词向量拼接起来形成表示整个句子的向量。这个向量会比较长,可以再通过一个神经网络进行转换,来生成一个维度比较小的句子向量。;文档主题分类

同样的原理,我们可以用句向量再组合成文档向量,然后用最终生成的文档向量来代表整个文档的嵌入表达。;情感倾向分析

将情感倾向分析看作一个分类任务,将情感分为正面、负面和中性三类。

英文句子:“Ilikethisphotoverymuch!”。该句子包含七个“元素”,采用词嵌入的方法将这个七个元素转换成词向量(标点符号也可以

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档