基于《知网》的汉语词语词义消歧方法_计算机论文.docVIP

基于《知网》的汉语词语词义消歧方法_计算机论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于《知网》的汉语词语词义消歧方法_计算机论文.doc

基于《知网》的汉语词语词义消歧方法_计算机论文 基于《知网》的汉语词语词义消歧方法_计算机论文 摘 要 本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。 关键词 词义消歧;知网;自然语言处理;依存句法分析 1 引言 自然语言中存在着大量的多义词,如何在给定的上下文中,确定其中各个词语在多个词义中选取正确的词义,是词义消歧所应解决的问题。如果多义词的多个词义之间具有不同的词性,则通过词性标注就可以确定该词词义。所以本文所说的词义消歧,是指如何在词性相同的情况下选择多义词正确词义的问题。 汉语词语的词义消歧开始于上世纪90年代后期,主要是利用词典提供的信息。出现了利用《现代汉语词典》释义文本、《同义词词林》、《知网》中的语义类,对实词多义进行消歧的方法,但是平均正确率并不是很高[1][2]。 近年来,随着计算机存储容量和运算速度的提高,通过对大规模语料库的利用,出现了许多基于语料库统计的词义消歧方法。使消歧的准确率有了一定程度的提高,但是有些低频词,在语料中出现次数不多,很难搜集到它们的上下文环境,存在着知识获取中数据稀疏以及自动学习算法的参数空间过大问题。 到目前,无论那种方法都没有很好地解决词义消歧问题[3]。其中一个重要的原因就是词义知识获取中的瓶颈问题,词义消歧知识库的质量已成为词义消歧成败的关键。 本文提出了一种基于《知网》的汉语词语词义消歧方法,该方法只考虑词汇句法之间的内在关联对特定环境中词义的贡献,借助依存文法分析来找出这种词义关联。假设不存在词义关联的上下文对于歧义词语的特定词义贡献为0,存在语法关联的上下文对词义的贡献相互独立。选择与歧义词汇存在语法关联的上下文作为模型中的特征值,这样做既可以减少无关上下文对词义消歧产生的噪音,又可以大幅度减少计算次数,在提高词义消歧准确率的同时,能够明显提高词义消歧的工作效率。 2 语义资源《知网》简介 “知网”(Hownet)是董振东先生花费十年时间编辑而成的语义词典,也是一款供自然语言处理工作者免费使用的完全共享软件。知网是一个以汉语和英语词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4]。 知网作为一个知识系统,是一个网而不是树。它所着力反映的是概念的共性和个性,同时知网还着力反映了概念之间和概念的属性之间的各种关系。知网知识库主要包括:①中英双语知识词典;②义原分类源文件;③知网管理工具;④知网说明文件(包括词类表和标识符号说明) 等。本文采用的知网知识库文件主要有经过处理的①和②。 2.1 义原分类源文件 在知网中,“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念,其中每个词的每一个义项分别对应于一个不同的概念。而“义原”是基本的、不易于再分割的、没有歧义的最小单位。不同的义原组合构成了不同的概念定义。 《知网》一共采用了1500 多个义原,这些义原分为“Event|事件”等十多个大类、16种关系。在义原关系中最重要的还是上下位关系。 2.2 中英双语知识词典 《中英双语知识词典》中一共收录了12万多条记录,而每一个词语用一条或多条记录来表示,每条记录的词典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八项,例如“电脑”一词的概念的记录如下所示: NO.=21902 W_C=电脑 G_C=N E_C= W_E=computer G_E=N E_E= DEF= computer|电脑 其中NO.为概念编号,W_C、G_C、E_C分别是汉语的词语、词性和例子,W_E、G_E、E_E分别是对应的英语词语、词性和例子,DEF是知网对于该概念的定义。 3 依存句法分析方法 依存句法是由法国语言学家L.Tesniere 在其著作《结构句法基础》(1959 年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者[5]。 二十世纪七十年代,Robinson 提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公理[6]: 1. 一个句子中只有一个成分是独立的; 2. 其它成分直接依存于某一成分; 3. 任何一个成分都不能依存于两个或两个以上的成分; 4. 如果A 成分直接依存于B 成分,而C

文档评论(0)

wyj199218 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档