- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进基于知网词汇语义相似度计算
改进基于知网词汇语义相似度计算
摘 要:针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明,采用改进方法得到的聚类结果F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性。
关键词:
知网;义原;概念;权重;语义相似度
中图分类号: TP391.1
文献标志码:A
0 引言
词汇语义相似度计算在文本聚类[1]、信息检索、机器翻译等领域有着广泛应用。当前词汇语义相似度计算方法大致可分为两类:一类利用大规模语料库进行统计,依据词汇上下文信息的概率分布进行计算;另一类基于某种世???知识来计算,通常是基于某个知识完备的语义词典中的层次结构关系进行计算,例如荀恩东等[2]采用WordNet进行英语词语间的相似度计算,刘群等[3]提出基于《知网》的词语相似度计算等。基于语料库的方法比较精准,但计算比较复杂并且结果容易受训练数据的噪声影响;而基于语义词典的方法简单有效,比较直观,但对词典依赖性较大,且易受人主观意识影响,当前词汇语义相似度计算大多采用该方法。
《知网》是一个以汉语和英语的词语所代表的概念(义项)为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4]。在《知网》中,词汇对应于若干概念,而概念是以义原为基础通过知识库描述语言进行定义的,即概念的义项表达式,义原又通过多种关系进行描述,如上下位关系等,其具体含义可查阅相关文献[3-4]。目前大多数学者基于《知网》的词汇语义相似度计算思想是整体相似度可由部分相似度加权平均进行计算。其中比较有代表性的方法如刘群等[3]首先提出的仅考虑义原之间距离因素的词汇语义相似度计算方法,李峰等[5]在前者的基础上所提出的考虑义原深度因素计算方法,Dai等[6]提出的基于《知网》的中英文词间相似度算法,刘青磊等[7]提出的基于信息论的计算方法,王小林等[8]提出的变系数计算方法等。然而文献[9]指出知识库描述语言对概念的描述具有线性关系,但上述计算方法都没有充分考虑该线性关系,使得词汇相似度计算结果不够合理。
本文在深入研究和分析知识库描述语言的结构特征以及现有计算方法基础上,提出一种充分考虑知识库描述语言线性描述特征的词汇语义相似度计算方法,使得词汇间的相似度计算结果更为合理。特别指出,若非特殊说明本文所述的《知网》都是指《知网》2000版。
1 词汇语义相似度计算
当前基于《知网》的词汇语义相似度计算大致可以分为三个过程:义原相似度计算、概念相似度计算和词汇语义相似度计算。各具体的计算过程如下所述。
1.1 义原相似度计算
《知网》中义原间的相似度计算主要利用义原层次体系中义原之间的各种关系进行计算,例如刘群等[3,5-6]利用义原之间的上下位关系进行计算等。本文选取当前计算方法中两种比较有代表性的义原相似度计算公式进行讨论。
分析以上两种公式可以看出,式(1)只考虑了义原层次体系中义原之间的距离因素对义原相似度的影响。例如,义原{“虫”,“鱼”}与{“物质”,“精神”}分别在义原层次树中的路径距离相等,则它们的相似度相等。但在人们直观理解上,显然前者之间的相似性应高于后者。所以只考虑义原间的距离因素往往计算得到的结果过于粗糙,不够合理。式(2)在式(1)的基础上充分考虑了义原在义原层次树中的深度因素对义原相似度的影响。同样以上述例子进行说明,前一组义原在义原层次树中的深度都为6,而后一组的深度都为2,则依据式(2)进行相似度计算,前者之间的相似度值大于后者,更加符合人们的主观理解,所以采用式(2)计算得到的结果较式(1)更为合理。
1.2 概念相似度计算
当前对于概念相似度计算也有许多方法,按照权重系数设置方式不同大致可以分为以下两类:
2 改进的词汇语义相似度计算
文献[9]指出知识库描述语言的描述方式具有线性顺序,它对义原的顺序是有规定的,如果破坏了这种顺序,就会导致意义上的错误。但当前的计算方法由于没有充分考虑义项表达式中义原描述式之间的顺序关系,使得概念的相似度计算不够合理,进而导致词汇间的语义相似度计算结果与人们的主观理解不一致。本文主要针对该缺点对现有的概念相似度计算方法进行改进,并结合1.1节和1.3节中所提出的方法进行词汇间的语义相似度计算。由于虚词所对应概念的定义方式比较简单,在此就不作赘述。接下来,本文就如何在概念相似度计算过程中充分考虑知识库描述语言对概念描述的线性关系进行讨论。
您可能关注的文档
- 改良局部切除术治疗十二指肠乳头肿瘤临床价值.doc
- 改良岛状皮瓣在手部组织缺损与手指修复中临床应用.doc
- 改良尿道板纵切卷管法在治疗小儿尿道下裂中应用价值分析.doc
- 改良封闭负压辅助闭合技术联合干细胞移植治疗难愈合性伤口研究.doc
- 改良布朗氏架在股骨粗隆间骨折保守治疗中应用.doc
- 改良平片无张力疝修补术在腹股沟疝中应用.doc
- 改良小切口白内障摘除及人工晶状体植入联合青光眼复合小梁切除术临床疗效观察.doc
- 改良式B―Lynch缝合术在剖宫产产后出血治疗中应用价值.doc
- 改良式B―Lynch缝合术对剖宫产术中子宫收缩乏力性出血作用.doc
- 改良小夹板外固定治疗桡骨远端伸直型骨折效果探析.doc
最近下载
- 教科版四年级科学上册3.1《让小车运动起来》课件.pptx VIP
- 痛经的PPT课件_原创精品文档.pptx VIP
- EPE珍珠棉物质安全资料表(MSDS).pdf VIP
- 项目五++活动三++浙江省(二)(课件)《中国旅游地理》(高教版第二版)+同步精品课堂.pptx VIP
- 医院大型医疗设备的管理与维护.docx VIP
- 中国儿童青少年身体活动指南.pdf VIP
- 国际电信联盟无线电频率划分脚注.docx VIP
- 西安鼎瀚智慧校园一卡通整体解决方案书2019.06.docx VIP
- 超临界二氧化碳及水蒸气的非平衡凝结特性对比研究.docx VIP
- 名师工作室建设与成果汇报.pptx VIP
文档评论(0)