《自然语言处理》05-文本表示.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1第5章 文本表示自然语言处理 目录词的表示分布式语义假设布朗聚类潜在语义分析神经词嵌入词表示评价短语和句子表示词袋模型基于神经网络的组合语义模型通用表示学习目标 目录词的表示分布式语义假设布朗聚类潜在语义分析神经词嵌入词表示评价短语和句子表示词袋模型基于神经网络的组合语义模型通用表示学习目标 One-Hot Encoding?? 分布式语义假设假设:You shall know a word by the company it keeps.词的含义可由其上下文的分布进行表示上下文相似的词语,其语义也往往相似方法介绍布朗聚类潜在语义分析LSA词神经嵌入 布朗聚类利用上下文分布特征对词进行层次化聚类可以用近似霍夫曼树的方式对单词进行编码前缀相似度越高的词越接近可以使用不同长度的前缀获得不同粒度的语义表示010001011100000000100101010111011 布朗聚类获得方式? 布朗聚类获得方式?????相邻词类互信息文本信息熵 布朗聚类获得方式?与词类聚类无关 布朗聚类? 潜在语义分析 LSA? 潜在语义分析 LSA? 潜在语义分析 LSA?? 潜在语义分析 LSA? 神经词嵌入? CBOW模型?? CBOW模型? CBOW模型? Skip-gram 模型? Skip-gram 模型 CBOW和Skip-gram参数估计? CBOW和Skip-gram参数估计实际操作中,输出层softmax函数维度过大,运行效率特别慢解决效率问题的两种近似方法:层次Softmax(Hierarchical Softmax)负采样方法(Negative Sampling) 层次Softmax将输出层用二叉树组合起来二叉树的叶子节点代表每一个单词对目标单词的预测分解为从根结点到叶子节点的二元路径决策 层次Softmax ???????? 层次Softmax ???? 层次Softmax ??????? 基于负采样的词向量学习?? 基于负采样的词向量学习举例:文本: I want to study NLP.窗口为2正例: (want, study)负例:(want, abandon)(want, model)…… 词表示评价词义相关性:人工标注一些词对的相似度。利用词向量余弦相似度值与人工标注相似度的相关系数作为词义相关性的评价标准: 词表示评价? 目录词的表示分布式语义假设布朗聚类潜在语义分析神经词嵌入词表示评价短语和句子表示词袋模型基于神经网络的组合语义模型通用表示学习目标 短语和句子表示通过词表示的组合计算,可以得到短语句子的向量表示短语句子表示可以应用在文本分类等下游任务中 词袋模型? 递归神经网络?大写字母代表词性,小写字母代表节点表示 循环神经网络? 卷积神经网络将每个词分布式表示向量进行拼接得到一副二维“图像”,在图像上进行卷积池化操作获得句子向量表示。滤波器高度等于词向量维度一保证以词为单位进行卷积。滤波器高度=词向量维度=4 注意力模型循环神经网络和卷积神经网络都采用池化操作获得句子表示,这种做法丢失了不同词的重要性分布信息。利用注意力(attention)机制,对不同词的重要程度加以评估,能够聚焦到更重要的信息。 自注意力模型? 通用表示学习目标获得通用的句子表示需要:编码器(模型)规模性大、通用性强的指导信号(任务)常见的通用表示学习任务:双语翻译语言模型单语言句间关系 双语翻译将神经翻译系统的编码器作为句子表示。作为表示 语言模型利用左右侧上下文预测掩盖的单词训练语言表示。我在周日看了一[mask]书Language Model本 单语言句间关系Skip-thought模型:通过一个句子的表示重构其左右的句子 本章总结词的表示:根据分布式语义表示,介绍了三种基于上下文信息的词表示获取方法了解了词表示的评价方式短语和句子表示:了解了句子表示的模型架构了解了获得通用句子表示的训练任务

文档评论(0)

扬州牧 + 关注
实名认证
文档贡献者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档