从深度学习回顾自然语言处理词嵌入方法.docVIP

  • 8
  • 0
  • 约3.97千字
  • 约 7页
  • 2018-08-12 发布于湖北
  • 举报

从深度学习回顾自然语言处理词嵌入方法.doc

从深度学习回顾自然语言处理词嵌入方法   摘要:随着深度学习的发展及其在相关领域的应用,机器学习的性能得到了显著的提升。例如在自然语言处理和计算机视觉方面,深度学习就在AlphaGo算法中得到了较好的应用,这也同样改变了词嵌入的处理方法。在本文中,我们简单回顾几种最近在深度学习中运用的词嵌入方法。   关键词:词嵌入;深度学习;词向量转换;状态向量   中图分类号:TP18 文?I标识码:A 文章编号:1009-3044(2016)36-0184-02   最近Alpha Go的火热程度,让人工智能这个词语重新回到了人们的视野里。自从Alan Turing 在1950 年提出了图灵测试以来,就有许多人开始不断地尝试,试图通过这种检测程序来确定机器是否具有智能行为的能力。但是到了后期,人们发现机器具备一定的语言交流能力不再是一件困难的事情,而单纯的图灵测试也不再是检测机器是否具有智能行为的唯一标准。人们对于智能的理解从简单的交流这种单一化的方面,转向了多元化的方向,例如机器视觉、机器人自动化、自然语言处理等都与人工智能息息相关。那么说起Alpha Go,不得不提它背后的技术支持,这段电脑程序是由Google Deep Mind公司所开发研制的。Alpha Go为什么会这么被人关注,并且能够成功击败人类最强的棋手之一呢?关键在于其深度学习的技术得到了很好的应用。   其实对于电脑来说,围棋相比较其他的游戏设计而言,更加具有难度。因为对于传统的人工智能技术来说,围棋具有19*19个落子点,要通过alpha-beta 剪枝法、遍历树和启发式搜索等方法去试图寻找最优得分,并且根据对手的每一步落子都将建立一个巨大的假设空间,所以这种计算量过于庞大,机器无法直接模拟到最后一步,只能考虑到接下来的5步或者6步棋。但是对于Alpha Go来说,它的背后使用了deep convolutional neural networks(CNN, 一种图像处理的深度神经网络)来进行特征点提取以及模式识别,并通过先验知识来训练它的神经网络。与此同时,也利用了一种类似于遗传算法的方式来进行程序的自我下棋训练。   CNN的应用,让Alpha Go的性能得到了很大的提升,同样的事情也发生在自然语言处理领域。对于自然语言来说,我们并不能让神经网络对于词语或者文字直接进行处理,因此我们需要使用相应的方法将我们人类的语言和文字转换为深度神经网络所能理解并且能进行学习的相应数据,这就涉及了我们下面所讲到的词嵌入(word embedding)方法。接下来我们将介绍自然语言处理中词嵌入方法的主要几种模型。   1 词向量表示法one-hot   首先我们需要明确一个问题,对于深度神经网络(例如recurrent neural network――RNN)来说,他们并没有办法很好地理解我们人类的语言。那么对于机器而言,我们该如何将人类的语言,转化为一种机器能够识别的数学语言,从而将机器的计算能力转换为语言能力呢?在《数学之美》一书中,作者吴军介绍了早期的词向量表示法one-hot,这种方法借用二进制代码来为语料库中所出现的词语赋以唯一的编码。例如“今天是个好天气”,进行分词处理后,被划分为“今天/是/个/好天气”。那么在这个句子中总共存在四个词语,因此我们给予“今天”的编码是“0001”,“是”的编码是“0010”,“个”的编码是“0100”以及“好天气”的编码是“1000”。通过这种方法,简单地将词语转换为一张索引表,然后通过对应编码在词典中寻找对应的词语。   但是这种方法存在的问题是由于在语料库中有大量的词语,从而造成索引所组成的矩阵维度过大,因此需要对其进行降维,较为麻烦。因此后续G. Salton等人在1975年提出了向量空间模型(VSMs)。   2 向量空间模型VSMs   向量空间模型把近似语义的词语映射在连续向量空间的点进行聚类处理。这种模型方法在自然语言处理中存在着广泛的应用,也是词嵌入的早期模型,这些模型都基于分布式语义理论。所谓的分布式语义假设理论基于分布式语义的研究,其内容大致可被归结为在同一上下文中可以被相关替换的词语通常存在着相同或者类似的语义。这种理论对数据的稀疏问题产生了巨大的影响,同时这种分布式理论也是概率语义学的基础之一。向量空间模型大致可以分为两类方法:基于统计的方法(计数为主,例如潜在语义分析),和基于预测的方法(例如神经概率模型)。   在Baroni的文章中,对统计方法和预测方法进行了详细的比较。统计方法将语料库中出现相邻词语的频率数据转换为针对于每个词语的一个小的稠密向量(dense vector),而预测模型更加直接地从邻近词语进行推理从而将其映射为一个稠密向量。   例如在神经概率模型中主要使用了

文档评论(0)

1亿VIP精品文档

相关文档