统计学中的n元语法模型.docVIP

下载本文档

34
0
约2.73千字
约 5页
2017-02-15 发布于北京
举报
版权申诉

统计学中的n元语法模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学中的n元语法模型.doc

统计学中的n元语法模型　　摘要：目前国内外对统计语言模型在数据处理，经济学，自然语言处理，地质统计等领域的研究越来越广泛。n元语法模型是神经网络语言模型是将深度学习的思想用于语言模型而构建的，在自然语言处理中n元语法模型有很重要的地位，它在语音识别，词性标注，机器翻译等领域有广泛应用。本文详细论述了模型的原理，并对该模型的优缺点进行分析，并说明了该模型在自然语言处理中的应用。　　关键词：n元语法模型；自然语言处理　　一：词向量　　“词向量”这个词最早由1986年hinton的文章“learning distributed representations of concepts”中提出，将单个词用“词向量”的方式表示是将deep learning的算法引入NLP 领域的一个核心技术，deep learning中的词向量是一种低维实数向量，词向量使得一些词的距离更近比如相关词或者相似词，这种距离通过欧式距离，夹角余弦来定义。“词向量”不仅可以避免维数灾难问题，而且由于相似词或者相关词的距离很小，应用词向量构造的模型本身具有平滑性。　　词向量是通过训练语言模型得到。从大量的无标签的语料库中进行无监督学习的想法有了语言模型。语言模型是针对某种语言建立的概率模型。语言模型的一般描述就是给定一个词序列，词序列，求该词序列是自然语言的概率，其中，表示词序列的第t个词，在n元语法模型中用表示。下面具体介绍n元语法模型。　　二：n元语法模型　　2.1模型的形式化表示。　　假设有个词，，个词构成的词序列记为，词序列的概率为　　（2.1）　　上下文H中词A的极大似然概率计算公式为　　（2.2）　　其中是在训练数据中词序列出现的次数，上下文可以由几个词组成，对于通常的三元模型，，当时，它没有考虑历史，该模型称为一元模型。　　由于n元语法模型比较简单，目前最常使用的语言模型基于n元语法模型，但是该模型由于数据缺乏需要采用一些平滑算法。影响n元语法模型的最重要的因素是顺序和平滑技术的选择，常用的平滑技术有加法平滑算法，Knerser-Ney平滑方法，Katz平滑方法，Jelinek-Mercer平滑方法等。对于基于词的语言模型，修正的Knerser-Ney平滑方法（KN）在平滑技术中有较好的结果。　　基于n元语法的统计数据模型的最大优势在于速度，简单和普遍性（只要存在一些训练数据，该模型可以应用到任何领域）。直到今天n元语法模型依然是最先进的技术，不是因为没有更好的技术，而是因为更好的技术计算过于复杂，仅仅进行了边际分布的改善，对于给定应用的成功不是至关重要的。　　2.2模型的优缺点　　n元语法模型的最大缺点在于随着上下文长度的增加，n元语法的数量成指数形式的增加。阻止这些模型有效的捕获较长的上下文类型。如果有大量的训练数据可用，从训练数据得到的模式不能通过n元语法进行有效地表示。因此产生了将神经网络应用到语言模型（LM）的思想，通过相似事件之间的共享参数来克服参数的指数增加，不再需要精确的历史的匹配。下面具体介绍几种不同的神经网络语言模型。　　n元语法的n体现了该词间的独立性，n越小独立性越强。则可根据不同语料的独立性特点选择不同的模型了。通常n=3。直观上讲，第i位置的词与前面多少个词的相关性并不一定，另外，“词”是一个笼统的概念（可以代表字、词短语等），它的选取也不确定，而一个模型直接赋予n一个确定的值，这本身是一种近似。所以说，模型不可能精确表达，根据这种局限性，一个好的模型的重要性就可想而知了。　　2.3模型的改进　　由于在自然语言处理中，如通过音素匹配法处理后，部分存在着缺失的可能。而且已识别的词对未识别词会有一定程度的影响，为了解决这种问题，所以华南理工大学陈伟雄[3]在论文基于n元语法模型的领域语音指令识别中对n元语法模型做一些改进。　　Bengio[1]等人建议通过学习词的分布式表示来避免维数灾难，分布式表示允许每一个句子形成关于语义相近句子的指数数量的模型。该模型可以同时学习每一个词的分布式表示和词序列的分布式表示的概率函数。在合理的时间训练包含数以万计参数的如此大的模型本身是一种挑战，使用神经语言模型的方法进行实验，结果显示在两个文本预料（Brown corpus和AP new corpus）上该神经语言模型的方法极大地提高了n元语法模型的最先进的性能，并且该方法允许利用较长的上下文。　　三：n元语法模型在自然语言处理中的应用　　自然语言处理就是如何让计算机正确处理人类语言并作出正确的响应，近年来作为人工智能的一个重要组成部分得到了快速发展，使得人机之间直接采用语言作为交互方式成为了可能。　　自2006年