第7章 文本向量化.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本向量化;;文本向量化是将文本表示成一系列能够表达文本语义的机读向量。

文本向量化按照向量化的粒度可以将其分为以字单位、以词为单位和以句子为单位向量表达,根据不同的情景选择不同的向量表达方法和处理方式。随着深度学习技术的广泛应用,基于神经网络的文本向量化已经成为NLP领域的研究热点,尤其是以词为单位的向量化。

Word2Vec是目前以词为单位中最典型的生成词向量的工具,其特点是将所有的词向量化,这样词与词之间即可度量它们之间的关系、挖掘词之间的联系。也有一部分研究将句子作为文本处理的基本单元,于是就产生了Doc2Vec和Str2Vec等技术。;;文本向量化主要有离散表示和分布式表示。离散表示是一种基于规则和统计的向量化方式,常用的方法有词集模型和词袋(BOW)模型,两类模型都是基于词之间保持独立性、没有关联为前提,将所有文本中的词形成一个字典,然后根据字典统计词出现频数。

词集模型中的独热表示(one-hotrepresentation),只要单个文本中单词出现在字典中,就将其置为1,不管出现多少次。

BOW模型只要文本中一个词出现在字典中,就将其向量值加1,出现多少次就加多少次。

文本离散表示的特点是忽略文本信息中的语序信息和语境信息,仅将其反映为若干维度的独立概念。这类模型由于本身原因存在无法解决的问题,如主语和宾语的顺序问题,会导致无法理解诸如“我为你鼓掌”和“你为我鼓掌”两个语句之间的区别。;用一个长的向量表示一个词,向量长度为词典的大小,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。

One-hot表示的缺点。

维数过高:随着语料的增加,维数会越来越大,导致维数灾难。

矩阵稀疏:one-hot表示的每一个词向量只有1维是有数值的,其他维度上的数值都为0。

不能保留语义:one-hot表示的结果不能保留词语在句子中的位置信息。;BOW模型就是用一个向量表示一句话或一个文档。

BOW模型忽略文档的词语顺序、语法、句法等要素,将文档看作是若干个词汇的集合,文档中每个词都是独立的。

BOW模型每个维度上的数值代表ID对应的词在句子里出现的频次。

BOW模型与one-hot表示相比存在的缺点如下。

维数高和稀疏性:不能保留词语在句子中的位置信息,如“我为你鼓掌”和“你为我鼓掌”向量化结果依然没有区别。

不能保留语义:当语料增加时,维数也会增大,一个文本里不出现的词就会增多,导致矩阵稀疏。

;TF-IDF表示是用一个向量表示一个句话或一个文档,它的表示过程如下。

首先TF-IDF是在BOW的基础上对词出现的频次赋予TF-IDF权值。

其次对BOW模型进行修正,进而表示该词在文档集合中的重要程度。

;;分布式表示将每个词根据上下文从高维空间映射到一个低维度、稠密的向量上。分布式表示的思想是词的语义是通过上下文信息确定的,即相同语境出现的词,其语义也相近。

分布式表示的优点是考虑到了词之间存在的相似关系,减小了词向量的维度。常用的方法有基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。

分布式表示与one-hot表示对比,在形式上,one-hot表示的词向量是一种稀疏词向量,其长度就是字典长度,而分布式表示是一种固定长度的稠密词向量。;Word2Vec模型是简单化的神经网络模型。Word2Vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;该工具得到的训练结果可以很好地度量词与词之间的相似性。

模型特点是,当模型训练好后,并不会使用训练好的模型处理新的任务,真正需要的是模型通过训练数据所学得的参数,如隐藏层的权重矩阵。

Word2Vec模型的输入是one-hot向量,根据输入和输出模式不同,分为连续词袋模型(ContinuousBag-of-Words,CBOW)和跳字模型(Skip-Gram)。

;CBOW模型是根据上下文的词语预测目标词出现的概率。

CBOW模型的神经网络包含了输入层、隐藏层和输出层。

输入层的输入的是某一个特定词上下文的one-hot向量。

输出层的输出是在给定上下文的条件下特定词的概率分布。

其模型结构如图所示。;(1)CBOW模型的网络结构

假设某个特定词的上下文含C个词,词汇表中词汇量的大小为V,每个词都用one-hot向量表示,神经网络相邻层的神经元是全连接的。其网络结构如下。

输入层的含有C个单元,每个单元含V个神经元,用于输入V维one-hot向量。

隐藏层的神经元个数为N,在输入层中,每个单元到隐藏层连接权重值共享一个维的权重矩阵。

输出层含有V个神经元,隐藏层到输出层连接权重为维权重矩阵。

输出层神经元的输出值表示词汇表中每个词的概率分布,通过softmax函数计算每个词出现的概率。;(2)C

您可能关注的文档

文档评论(0)

Jane9872 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档