第7章文本向量化.pptxVIP

下载本文档

0
0
约4.43千字
约 33页
2025-11-14 发布于湖南
举报
版权申诉

第7章文本向量化.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本向量化;;文本向量化是将文本表示成一系列能够表达文本语义的机读向量。

文本向量化按照向量化的粒度可以将其分为以字单位、以词为单位和以句子为单位向量表达，根据不同的情景选择不同的向量表达方法和处理方式。随着深度学习技术的广泛应用，基于神经网络的文本向量化已经成为NLP领域的研究热点，尤其是以词为单位的向量化。

Word2Vec是目前以词为单位中最典型的生成词向量的工具，其特点是将所有的词向量化，这样词与词之间即可度量它们之间的关系、挖掘词之间的联系。也有一部分研究将句子作为文本处理的基本单元，于是就产生了Doc2Vec和Str2Vec等技术。;;文本向量化主要有离散表示和分布式表示。离散表示是一种基于规则和统计的向量化方式，常用的方法有词集模型和词袋（BOW）模型，两类模型都是基于词之间保持独立性、没有关联为前提，将所有文本中的词形成一个字典，然后根据字典统计词出现频数。

词集模型中的独热表示（one-hotrepresentation），只要单个文本中单词出现在字典中，就将其置为1，不管出现多少次。

BOW模型只要文本中一个词出现在字典中，就将其向量值加1，出现多少次就加多少次。

文本离散表示的特点是忽略文本信息中的语序信息和语境信息，仅将其反映为若干维度的独立概念。这类模型由于本身原因存在无法解决的问题，如主语和宾语的顺序问题，会导致无法理解诸如“我为你鼓掌”和“你为我鼓掌”两个语句之间的区别。;用一个长的向量表示一个词，向量长度为词典的大小，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置。

One-hot表示的缺点。

维数过高：随着语料的增加，维数会越来越大，导致维数灾难。

矩阵稀疏：one-hot表示的每一个词向量只有1维是有数值的，其他维度上的数值都为0。

不能保留语义：one-hot表示的结果不能保留词语在句子中的位置信息。;BOW模型就是用一个向量表示一句话或一个文档。

BOW模型忽略文档的词语顺序、语法、句法等要素，将文档看作是若干个词汇的集合，文档中每个词都是独立的。

BOW模型每个维度上的数值代表ID对应的词在句子里出现的频次。

BOW模型与one-hot表示相比存在的缺点如下。

维数高和稀疏性：不能保留词语在句子中的位置信息，如“我为你鼓掌”和“你为我鼓掌”向量化结果依然没有区别。

不能保留语义：当语料增加时，维数也会增大，一个文本里不出现的词就会增多，导致矩阵稀疏。

;TF-IDF表示是用一个向量表示一个句话或一个文档，它的表示过程如下。

首先TF-IDF是在BOW的基础上对词出现的频次赋予TF-IDF权值。

其次对BOW模型进行修正，进而表示该词在文档集合中的重要程度。

;;分布式表示将每个词根据上下文从高维空间映射到一个低维度、稠密的向量上。分布式表示的思想是词的语义是通过上下文信息确定的，即相同语境出现的词，其语义也相近。

分布式表示的优点是考虑到了词之间存在的相似关系，减小了词向量的维度。常用的方法有基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。

分布式表示与one-hot表示对比，在形式上，one-hot表示的词向量是一种稀疏词向量，其长度就是字典长度，而分布式表示是一种固定长度的稠密词向量。;Word2Vec模型是简单化的神经网络模型。Word2Vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；该工具得到的训练结果可以很好地度量词与词之间的相似性。

模型特点是，当模型训练好后，并不会使用训练好的模型处理新的任务，真正需要的是模型通过训练数据所学得的参数，如隐藏层的权重矩阵。

Word2Vec模型的输入是one-hot向量，根据输入和输出模式不同，分为连续词袋模型（ContinuousBag-of-Words，CBOW）和跳字模型（Skip-Gram）。

;CBOW模型是根据上下文的词语预测目标词出现的概率。

CBOW模型的神经网络包含了输入层、隐藏层和输出层。

输入层的输入的是某一个特定词上下文的one-hot向量。

输出层的输出是在给定上下文的条件下特定词的概率分布。

其模型结构如图所示。;(1)CBOW模型的网络结构

假设某个特定词的上下文含C个词，词汇表中词汇量的大小为V，每个词都用one-hot向量表示，神经网络相邻层的神经元是全连接的。其网络结构如下。

输入层的含有C个单元，每个单元含V个神经元，用于输入V维one-hot向量。

隐藏层的神经元个数为N，在输入层中，每个单元到隐藏层连接权重值共享一个维的权重矩阵。

输出层含有V个神经元，隐藏层到输出层连接权重为维权重矩阵。

输出层神经元的输出值表示词汇表中每个词的概率分布，通过softmax函数计算每个词出现的概率。;(2)C

您可能关注的文档

网络安全信息收集课件.pdf

文档评论（0）

Jane9872 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第7章文本向量化.pptxVIP