基于统计语言模型无导词义消歧.docVIP

下载本文档

3
0
约4.67千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于统计语言模型无导词义消歧.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于统计语言模型无导词义消歧

基于统计语言模型无导词义消歧　　摘要：词义消歧在自然语言处理中一直是一个难点问题，同时，也是很多领域都需要解决的一个重要环节。本文介绍了一种基于统计语言模型和统计方法相结合的有导词义消歧模型，详细讲解了统计语言模型原理；通过实验发现，在有限的标注语言条件下，语言模型确实可以提高词义消歧的性能。由此得出，统计语言模型在词义消歧的中具有良好的应用前景。　　关键词：语言模型；hownet；无导方法　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）01-0178-03 　　An Unsupervised Approach To Word Sense Disambiguation Based on Language Model 　　CHEN Hao 　　（Department of computer Science，Guangdong University of Finace and Economics， Huashang College， Guangzhou 510000，China）　　Abstract： Word sense disambiguation is a difficult problem in many fields of natural language processing，eg.machine translation，information retrieval.This paper firstly introduces a language model which is conbining statistics method，and then discusses the advantage of the language model.Accordingly ，the language model has the good application foreground in Wsd. 　　Key words： language model； hownet； an unsupervised approach 　　随着计算科学技术的飞速发展，自然语言处理希望机器能像人一样能理解自然语言，并且代替人类去做很多人类无法从事的工作，从而提高工作效率，词义消歧就是自然处理中一个很重要的问题，攻克这一难题对于自然语言处理以及机器翻译等都有很重大的意义。　　许多学者对词义消歧进行了研究，十九世纪八十年代中期，Lesk[1] 利用词典中的词义或者成为义项来进行词义的消除歧义。他通过计算上下文词语的覆盖度，选择覆盖度了较大的作为正确的义项。尽管结果不是很理想，但是也开创了自然语言中词义消歧的先河。到了十九世纪初，语言学家Yarow sky[2]通过把文章的不同主题进行分类，歧义词语在在不同主题的文章中的含义不同，通过这种方法来确定歧义词语的含义，取得不错的效果。[3]十九世纪末期，Wordnet进入词义消歧领域，通过计算上下文词语的语言环境来确定词语的含义。[4]进入二十世纪以后，逐渐出现了一些基于实例的词义消除歧义的方法，通过实例可以指导判断歧义词义的词义。还可以采用词义搭配关系，上下文语法知识等，测试中也取得了不错的消歧效果。　　本文提出了一种运用统计语言模型来解决词义消歧问题。在保持统计语言模型优点的基础上，该文提出方法的主要特点在于：　　1）把多义词放到统计语言模型里去进行无指导消歧的方法；　　2）使用聚类的方法对多义词的周围词义聚类　　3）通过抽取术语，可以提高上下文词义的实用性。　　本文以下内容安排如下：第2节对知网进行描述；第3节介绍无导消歧的过程，其中3.1节介绍基于统计语言模型的学习方法， 3.2介绍术语的抽取方法；3.3介绍上下文语言模型表示；第4节通过一些具体的词语的例子来检测消歧的效果；第5节分析本文提出的方法的优势和可能存在需要进一步的研究的问题。　　1 《知网》[5]的介绍　　《知网》是用义原来对每一个词语进行描述和定义的，义原可以理解为词语的一个解释，我们进行词义消歧的目的就是要确定多义词在具体语境中属于哪一种意思。我们以动词“打” 　　为例，打是一个多义词，它有多种含义，我们在进行词义消歧的时候可以确定它是哪个义原　　在知网中，它的一般记录格式是：No= W_C= G_C= ，E_C= ，其中No=是编号，W_C=是多义词，G_C=是词性，是动词，名词还是形容词等，最后一个E_C=是举例，比如打毛衣，中的打就是编织的意思，而如果打仗中的打可理解为击，敲，攻击的意思。根据上下文的特点，我们可以确定在特定语境里多义词的义原。　　2 基于统计语言模型的无导学习方法[6] 　　2.1 统计语言模型