- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
文本向量化;;文本向量化是将文本表示成一系列能够表达文本语义的机读向量。
文本向量化按照向量化的粒度可以将其分为以字单位、以词为单位和以句子为单位向量表达,根据不同的情景选择不同的向量表达方法和处理方式。随着深度学习技术的广泛应用,基于神经网络的文本向量化已经成为NLP领域的研究热点,尤其是以词为单位的向量化。
Word2Vec是目前以词为单位中最典型的生成词向量的工具,其特点是将所有的词向量化,这样词与词之间即可度量它们之间的关系、挖掘词之间的联系。也有一部分研究将句子作为文本处理的基本单元,于是就产生了Doc2Vec和Str2Vec等技术。;;文本向量化主要有离散表示和分布式表示。离散表示是一种基于规则和统计的向量化方式,常用的方法有词集模型和词袋(BOW)模型,两类模型都是基于词之间保持独立性、没有关联为前提,将所有文本中的词形成一个字典,然后根据字典统计词出现频数。
词集模型中的独热表示(one-hotrepresentation),只要单个文本中单词出现在字典中,就将其置为1,不管出现多少次。
BOW模型只要文本中一个词出现在字典中,就将其向量值加1,出现多少次就加多少次。
文本离散表示的特点是忽略文本信息中的语序信息和语境信息,仅将其反映为若干维度的独立概念。这类模型由于本身原因存在无法解决的问题,如主语和宾语的顺序问题,会导致无法理解诸如“我为你鼓掌”和“你为我鼓掌”两个语句之间的区别。;用一个长的向量表示一个词,向量长度为词典的大小,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。
One-hot表示的缺点。
维数过高:随着语料的增加,维数会越来越大,导致维数灾难。
矩阵稀疏:one-hot表示的每一个词向量只有1维是有数值的,其他维度上的数值都为0。
不能保留语义:one-hot表示的结果不能保留词语在句子中的位置信息。;BOW模型就是用一个向量表示一句话或一个文档。
BOW模型忽略文档的词语顺序、语法、句法等要素,将文档看作是若干个词汇的集合,文档中每个词都是独立的。
BOW模型每个维度上的数值代表ID对应的词在句子里出现的频次。
BOW模型与one-hot表示相比存在的缺点如下。
维数高和稀疏性:不能保留词语在句子中的位置信息,如“我为你鼓掌”和“你为我鼓掌”向量化结果依然没有区别。
不能保留语义:当语料增加时,维数也会增大,一个文本里不出现的词就会增多,导致矩阵稀疏。
;TF-IDF表示是用一个向量表示一个句话或一个文档,它的表示过程如下。
首先TF-IDF是在BOW的基础上对词出现的频次赋予TF-IDF权值。
其次对BOW模型进行修正,进而表示该词在文档集合中的重要程度。
;;分布式表示将每个词根据上下文从高维空间映射到一个低维度、稠密的向量上。分布式表示的思想是词的语义是通过上下文信息确定的,即相同语境出现的词,其语义也相近。
分布式表示的优点是考虑到了词之间存在的相似关系,减小了词向量的维度。常用的方法有基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。
分布式表示与one-hot表示对比,在形式上,one-hot表示的词向量是一种稀疏词向量,其长度就是字典长度,而分布式表示是一种固定长度的稠密词向量。;Word2Vec模型是简单化的神经网络模型。Word2Vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;该工具得到的训练结果可以很好地度量词与词之间的相似性。
模型特点是,当模型训练好后,并不会使用训练好的模型处理新的任务,真正需要的是模型通过训练数据所学得的参数,如隐藏层的权重矩阵。
Word2Vec模型的输入是one-hot向量,根据输入和输出模式不同,分为连续词袋模型(ContinuousBag-of-Words,CBOW)和跳字模型(Skip-Gram)。
;CBOW模型是根据上下文的词语预测目标词出现的概率。
CBOW模型的神经网络包含了输入层、隐藏层和输出层。
输入层的输入的是某一个特定词上下文的one-hot向量。
输出层的输出是在给定上下文的条件下特定词的概率分布。
其模型结构如图所示。;(1)CBOW模型的网络结构
假设某个特定词的上下文含C个词,词汇表中词汇量的大小为V,每个词都用one-hot向量表示,神经网络相邻层的神经元是全连接的。其网络结构如下。
输入层的含有C个单元,每个单元含V个神经元,用于输入V维one-hot向量。
隐藏层的神经元个数为N,在输入层中,每个单元到隐藏层连接权重值共享一个维的权重矩阵。
输出层含有V个神经元,隐藏层到输出层连接权重为维权重矩阵。
输出层神经元的输出值表示词汇表中每个词的概率分布,通过softmax函数计算每个词出现的概率。;(2)C
您可能关注的文档
最近下载
- 苏S13-2022 预制混凝土排水检查井工程图集规范 .docx VIP
- 一种钛合金离子渗氧的方法.pdf VIP
- 冀人版(2024)小学科学一年级下册《认识自然物和人造物》说课课件.pptx VIP
- 2025人教版英语八年级上册全册教学设计教案.pdf
- 刮研方法与 技巧.ppt VIP
- 摄影笔记完整版.docx VIP
- 工课:即将失传的轴瓦刮研-王震.pdf VIP
- T_CEA 0052.2-2025《电梯电缆及线束试验方法 第2部分:电气性能》.docx VIP
- T_CEA 0052.1-2025《电梯电缆及线束试验方法 第1部分:机械物理性能》.docx VIP
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案.docx VIP
原创力文档


文档评论(0)