自然语言处理基础及应用课件 (7).pptxVIP

下载本文档

0
0
约1.46万字
约 73页
2025-12-17 发布于广东
举报
版权申诉

自然语言处理基础及应用课件 (7).pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高等学校自然语言处理课程教材（这里根据情况修改）自然语言处理基础应用李妍吕慧周庆国/主编李芬芳多拉/副主编

第7章文本向量化表示高等学校自然语言处理课程教材CONTENTS目录7.5文本的表示语言模型词向量算法Word2Vec案例：将网页文本向量化7.4向量化算法Doc2Vec

本章学习目标第7章文本向量化表示了解词的独热表示，分布式表示和词向量的基本概念，并充分理解语言模型的数学定义；了解神经网络语言模型，CW模型和GloVe模型，掌握利用gensim搭建CBOW模型和Skip-gram模型的基础理论及编程实现；理解向量化算法Doc2Vec的基础理论，以及与Word2Vec间的相互关系；熟练掌握采用gensim训练词向量的具体流程及注意事项。

7.1文本的表示文本是由文字、标点等符号组成的，但是计算机并不能高效地处理真实的文本。为了解决这种问题，就需要一种形式化的方法来表示真实文本，称之为文本向量化。向量化是指把文本转化为数值向量的过程。自然语言处理中的基础工作。研究者们投入了量的人力物力来研究文本表示方法，以期提高自然语言处理系统的性能。好坏直接影响到整个自然语言处理系统的性能。文本表示在自然语言理研究领域，文本向量化是文本表示的一种重要方式。第7章文本向量化表示

词的独热表示（one-hotrepresentation）是将每一个词写成一个N维的向量，其中只有一个分量为1，其他为0。N代表的是现有语料库的词汇表的大小。7.1.1词的独热表示词自然语言处理是人工智能技术的掌上明珠索引0123456以s=“自然语言处理是人工智能技术的掌上明珠。”为例构建词表：第7章文本向量化表示7.1文本的表示

7.1.1词的独热表示??0123456自然语言1000000处理0100000是0010000人工智能0001000技术0000100的0000010掌上明珠0000001每个词所在的行即为该词的独热向量。第7章文本向量化表示7.1文本的表示

7.1.1词的独热表示存在问题维度灾难存在语义鸿沟问题如果上述例子词表中含10000个单词，每个文本需要10000维的向量示，也就是说除了文本出现的词语位置不为0，其余9000多的位置均为0，如此高维度的向量会使得计算代价变大。“开心”与“快乐”的关系和“开心”与“火车”的关系一样。该方法虽然简单易行,但是存在以下问题:第7章文本向量化表示7.1文本的表示

词的分布式表示核心思想是利用低维连续的实数向量表示一个词语，使得语义相近的词在实数向量空间中也相近。7.1.2词的分布式表示假设语料库存在以下两句话：s1=“自然语言处理是人工智能技术的掌上明珠”s2=“我喜欢人工智能技术”第7章文本向量化表示假设句子中的每个词以其左右各一个词为其上下文，即窗口大小为1，则可以创建词语共现频次表。7.1文本的表示

词表共9个词，表中的每一项代表一个词w_i与另一个词w_j（上下文）在同一个句子中窗口大小为1时的共现频次，每个词与自身的共现频次设置为0。7.1.2词的分布式表示第7章文本向量化表示7.1文本的表示?自然语言处理是人工智能技术的掌上明珠我喜欢自然语言010000000处理101000000是010100000人工智能001020001技术000201000的000010100掌上明珠000001000我000000001喜欢000000010表中的每一行（列）即代表一个词的向量。

7.1.3词嵌入表示第7章文本向量化表示7.1文本的表示词嵌入是一种将文本中的词转换成数字向量的方法。为了使用机器学习算法来对文本进行分析，就需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个低维的连续向量空间中，每个词被映射为实数域上的向量，该向量就是词向量。

第7章文本向量化表示高等学校自然语言处理课程教材CONTENTS目录7.5文本的表示语言模型词向量算法Word2Vec案例：将网页文本向量化7.4向量化算法Doc2Vec

7.2语言模型第7章文本向量化表示??通过上式可以看出，每次新出现的词，都和已经出现的词有很强的关联，所以越到后面的词，所需要的条件概率越稀疏，并且参数也会越多。

7.2.1N-gram模型的出现第7章文本向量化表示7.2语言模型随着句子长度的增加，后面出现的词很可能与前面的词之间缺乏因果关系。因此，可以提出以下假设：每个词出现的概率，只和前面一个词相关：每个词出现的概率，只和前面两个词相关：??进一步推广这个假设，可以认为每个词与前面3个、4个或更多词相关。这种假设被称为马尔可夫假设。基于这个假设