- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HowNet在自然语言处理领域研究现状与分析
HowNet在自然语言处理领域研究现状与分析
【摘 要】自HowNet诞生以来,作为一个中文常识性知识库,HowNet为自然语言处理提供了一个新的研究资源。本文主要研究了HowNet利用其计算词语相似度的优势在中文自然语言处理应用中做出的突出贡献,深入剖析了HowNet的知识结构以及相关技术,并提出了HowNet在近年来应用过程中遇到的技术难题及瓶颈。
【关键词】知网;自然语言处理;HowNet;词语相似度
自然语言处理的最终目标是让计算机能够与人类进行有效的通信。国外的自然语言处理发展的相对成熟,大规模的真实语料库的建立以及知识库诸如WordNet、FrameNet的不断完善推动了自然语言的发展。尽管这样,由于中文和英文的结构句法不同,有自己独特的特色,因此我们不能本着“拿来主义”,用国外已有的技术来处理中文的自然文本,必须有一套适合中文的处理模式。
HowNet由董振东、董强先生于1999年在因特网上公布,作为一个双语知识库,它为中文自然语言处理提供了不可多得的语言资源。目前关于知网的研究还处于基础阶段,刘群、李素建等人深入研究了基于HowNet的词语相似度计算,其他的研究人员也将HowNet应用于信息检索、MC评测集的建立等领域,取得了可喜的成绩。
本文深入研究了HowNet的相关结构,分析了HowNet的知识组成以及网状关系,探讨了Hownet在当前领域的现状并指出了其存在的问题,并分析了原因。
1 HowNet简介
《知网》[3]是一个在线的语言外的知识系统,其中概念的定义被描述为计算机很容易计算的机构化标记语言形式。它除了提供中文含义还提供了含义相等的英文词汇。知网中的每个概念有多个义项,而每个义项由多个义原按照KDML语法组织在一起。如知识库中对“医生”的描述为:{human|人:HostOf={Occupation|职位},domain={medical|医},{doctor|医治:agent={~}}},这里的“人”、“职位”、“医”、“医治”均是知网的义原,几个义原的组合,共同描述概念“医生”的真实语义。
2 基于HowNet的词语相似度计算
HowNet通过上下位关系将义原组织成了一个义原分类体系。该分类体系主要包括事件、实体、属性和属性值4种,我们可以通过义原的层次清楚到看到义原的上下位关系,并简单的计算义原之间的距离。HowNet把这些知识提供给计算机,从而让计算机可以对这些知识进行操作。词语相似度的计算就是挖掘义原之间的距离、深度、密度等信息,利用这些信息对义原进行相关的计算,从而得到一个相似度值。相似度计算主要有以下方法:一种是基于机器的词典的方式,比如HowNet;另一种是基于统计的方法。本节主要探讨第一种方式。
2.1 词语相似度计算
刘群、李素建[2]等人利用义原的距离信息提出了一种词语相似度计算的算法。他们将每一个词语分解成n个义项,并定义最终的相似度应该是所有义项的相似度的最大值。故对于两个汉语词语W1和 W2,如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,则这两个词语的相似度应该是W1的义项S11,S12,……,S1n和W2的义项S21,S22,……,S2m之间的最大相似度值。即:
Sim(W1,W2)= ■Sim(S1i,S2j)(1)
2.2 概念(义项)相似度计算
下一步就是求义项相似度,即DEF项。在HowNet中,DEF项主要通过义原的各种动态角色组织起来。如对于“警察”这个概念,在知识库中描述为:DEF={human|人:HostOf={Occupation|职位},domain={police|警}}。其中“human|人”是第一基本义原,“Occupation|职位”“police|警”是其他基本义原。有些复杂的DEF项还包括关系义原和符号义原。因此刘群等人将DEF的描述义原分为以上四种,并分别记它们的相似度为Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2):因此,两个DEF项的相似度公式为:
Sim(S1,S2)=■?茁i■Simj(S1,S2)(2)
知网中相似性的计算是基于概念的,它已被证明达到非常高的精度。而上面通过对“警察”这个概念的描述,我们能看出来DEF是通过KDML将义原和动态角色组织起来来体现的。刘群等人采用做过一些简单的实验,它们仅仅利用了义原的距离信息,并取得较理想的效果。 2.4 义原相似度的改进算法
吴健和江敏等人在刘群的研究基础上,又进一步改进了语义相似度计算公式,使得计算的结果更加精确。吴健等人不仅考虑了义原的距离,还将义原的深
文档评论(0)