基于知网义原信息量的词语相似度计算方法.docxVIP

基于知网义原信息量的词语相似度计算方法.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

??

?

??

基于知网义原信息量的词语相似度计算方法

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

李国佳1,杨喜亮2

(1.华北水利水电大学软件学院;2.华北水利水电大学现代教育技术中心,河南郑州450045)

摘要:国内利用知网计算中文词语相似度通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取。根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度。实验结果证明,该方法合理可行。

关键词:义原信息量;角色关系;词语相似度;信息处理

DOI:10.11907/rjdk.151250

中图分类号:TP391文献标识码:A文章编号:1672-7800(2015)006-0142-03

作者简介:李国佳(1986-),男,山西大同人,硕士,华北水利水电大学软件学院助教,研究方向为自然语言处理;杨喜亮(1981-),男,河南郑州人,硕士,华北水利水电大学现代教育技术中心助教,研究方向为智能信息处理。

0引言

词语相似度计算在信息检索、文本分类、信息抽取、机器翻译等领域有着广泛应用。目前,词语相似度的计算方法主要有两大类:一类是基于距离的方法,如基于WordNet中词语结点的距离来计算英语词语的语义相似度[1],基于知网(Hownet)义原距离来计算中文词语的语义相似度[2-3];另一类是基于语料统计的方法,这类方法假设凡是语义相近的词语,它们的上下文也应该相似,利用上下文中词语的概率分布来计算词语相似度[4-5]。

自1999年知网(HowNet)正式发布以来,其受到越来越多研究人员的关注。基于知网计算中文词语的相似度也诞生了很多方法[2,6-8],这些方法通常根据意义分解思想,将词语分解为更小单位(义原)参与相似度计算,再按照权重比例综合计算词语整体相似度。利用词语分解后的单位(义原)参与计算,割裂了描述词语的各个义原之间的关系,不能充分反应出词语间语义的相似性,计算结果也不够理想。

本文从整体性角度出发,给出一种基于义原信息量计算中文词语相似度的方法。基于知网的分类体系(Taxonomy),将义原及其角色关系整体作为词语相似度计算的基本单位,保留了描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想[4],用两个词语共有义原及其角色关系的信息量和所有义原及其角色关系的信息量来综合计算词语的相似度。

1知网义原信息量

1.1义原信息量

PhilipResnik最早提出基于信息量来计算语义相似度,在WordNet中,对于概念c,其信息量(InformationContent)表示为在某给定语料库中c出现的概率p(c)的负对数函数[5],计算公式为:

icres(c)=-logp(c)(1)

根据Resnik的思想,对知网中的一个义原A,其信息量大小I(A)为:

I(A)=-logP(A)(2)

其中,P(A)表示义原A在某个语料库样本空间中出现的概率。计算语料库样本空间中某个义原出现的概率很困难。知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,那么仅依赖知网分类体系本身而不需其它语料库,作为计算义原出现概率的样本空间也是合理的。本文给出一种根据知网的分类体系来计算义原信息量的方法。

由义原组成的知网分类体系是一棵概念分类树,在每类义原树状层次结构(以下简称为义原树)中,根结点义原是分类类别,是最大的分类,其它义原都是根结点义原的子孙。可以认为,分支结点义原包含越多的子孙结点,其信息量越小。叶子结点是最小的分类,所有叶子结点的信息量是相同的。

选取知网中实体类、事件类、属性类、属性值类、次要特征所包含的2216个义原作为计算某颗义原树上义原出现概率的样本空间,将一个义原及其包含的子孙义原的数量作为该义原在样本空间中出现的次数,设p是某类义原树上的一个义原结点,则p的信息量I(p)计算方法为:

其中,Seme(p)是义原p包含的子孙义原的数量,MaxTree是该知网义原树上所有义原的数量。

1.2义原及其角色关系的信息量

在知网的知识词典中,每个词语由DEF来描述其概念。将DEF分为两部分:主类义原和特性描述部分。

定义1:义原及其角色关系。

在词语概念DEF的特性描述部分中,将义原及动态角色与特征(EventRoleandFeatures)[9]的层次结构的组合称为义原及其角色关系。

定义2:主类义原。

在词语概念DEF中,把描述词语概念最左边的第一个义原称为主类义原,也称为第0层义原及其角色关系。

例如词

文档评论(0)

152****7564 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档