从深度学习回顾自然语言处理词嵌入的方法.docVIP

下载本文档

5
0
约3.97千字
约 8页
2018-10-12 发布于福建
举报
版权申诉

从深度学习回顾自然语言处理词嵌入的方法.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从深度学习回顾自然语言处理词嵌入的方法

从深度学习回顾自然语言处理词嵌入的方法　　摘要：随着深度学习的发展及其在相关领域的应用，机器学习的性能得到了显著的提升。例如在自然语言处理和计算机视觉方面，深度学习就在AlphaGo算法中得到了较好的应用，这也同样改变了词嵌入的处理方法。在本文中，我们简单回顾几种最近在深度学习中运用的词嵌入方法。　　关键词：词嵌入；深度学习；词向量转换；状态向量　　中图分类号：TP18 文?I标识码：A 文章编号：1009-3044（2016）36-0184-02 　　最近Alpha Go的火热程度，让人工智能这个词语重新回到了人们的视野里。自从Alan Turing 在1950 年提出了图灵测试以来，就有许多人开始不断地尝试，试图通过这种检测程序来确定机器是否具有智能行为的能力。但是到了后期，人们发现机器具备一定的语言交流能力不再是一件困难的事情，而单纯的图灵测试也不再是检测机器是否具有智能行为的唯一标准。人们对于智能的理解从简单的交流这种单一化的方面，转向了多元化的方向，例如机器视觉、机器人自动化、自然语言处理等都与人工智能息息相关。那么说起Alpha Go，不得不提它背后的技术支持，这段电脑程序是由Google Deep Mind公司所开发研制的。Alpha Go为什么会这么被人关注，并且能够成功击败人类最强的棋手之一呢？关键在于其深度学习的技术得到了很好的应用。　　其实对于电脑来说，围棋相比较其他的游戏设计而言，更加具有难度。因为对于传统的人工智能技术来说，围棋具有19*19个落子点，要通过alpha-beta 剪枝法、遍历树和启发式搜索等方法去试图寻找最优得分，并且根据对手的每一步落子都将建立一个巨大的假设空间，所以这种计算量过于庞大，机器无法直接模拟到最后一步，只能考虑到接下来的5步或者6步棋。但是对于Alpha Go来说，它的背后使用了deep convolutional neural networks（CNN，一种图像处理的深度神经网络）来进行特征点提取以及模式识别，并通过先验知识来训练它的神经网络。与此同时，也利用了一种类似于遗传算法的方式来进行程序的自我下棋训练。　　CNN的应用，让Alpha Go的性能得到了很大的提升，同样的事情也发生在自然语言处理领域。对于自然语言来说，我们并不能让神经网络对于词语或者文字直接进行处理，因此我们需要使用相应的方法将我们人类的语言和文字转换为深度神经网络所能理解并且能进行学习的相应数据，这就涉及了我们下面所讲到的词嵌入（word embedding）方法。接下来我们将介绍自然语言处理中词嵌入方法的主要几种模型。　　1 词向量表示法one-hot 　　首先我们需要明确一个问题，对于深度神经网络（例如recurrent neural network――RNN）来说，他们并没有办法很好地理解我们人类的语言。那么对于机器而言，我们该如何将人类的语言，转化为一种机器能够识别的数学语言，从而将机器的计算能力转换为语言能力呢？在《数学之美》一书中，作者吴军介绍了早期的词向量表示法one-hot，这种方法借用二进制代码来为语料库中所出现的词语赋以唯一的编码。例如“今天是个好天气”，进行分词处理后，被划分为“今天/是/个/好天气”。那么在这个句子中总共存在四个词语，因此我们给予“今天”的编码是“0001”，“是”的编码是“0010”，“个”的编码是“0100”以及“好天气”的编码是“1000”。通过这种方法，简单地将词语转换为一张索引表，然后通过对应编码在词典中寻找对应的词语。　　但是这种方法存在的问题是由于在语料库中有大量的词语，从而造成索引所组成的矩阵维度过大，因此需要对其进行降维，较为麻烦。因此后续G. Salton等人在1975年提出了向量空间模型（VSMs）。　　2 向量空间模型VSMs 　　向量空间模型把近似语义的词语映射在连续向量空间的点进行聚类处理。这种模型方法在自然语言处理中存在着广泛的应用，也是词嵌入的早期模型，这些模型都基于分布式语义理论。所谓的分布式语义假设理论基于分布式语义的研究，其内容大致可被归结为在同一上下文中可以被相关替换的词语通常存在着相同或者类似的语义。这种理论对数据的稀疏问题产生了巨大的影响，同时这种分布式理论也是概率语义学的基础之一。向量空间模型大致可以分为两类方法：基于统计的方法（计数为主，例如潜在语义分析），和基于预测的方法（例如神经概率模型）。　　在Baroni的文章中，对统计方法和预测方法进行了详细的比较。统计方法将语料库中出现相邻词语的频率数据转换为针对于每个词语的一个小的稠密向量（dense vector），而预测模型更加直接地从邻近词语进行推理从而将其映射为一个稠密向量。　　例如在神经概率模型中主要使用