- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Vol. 4 No.8/ Aug. 2010
基于HowNet句子相似度的计算
周云 朱定局 柏佳宁 朱怡蔓
摘 要 针对目前词语相似度计算中词语的反义关系、对义关系、符号义元”^”和”~ ”体现的不明显问题,本文提出
基于HowNet计算句子相似度,在《知网》的词语相似度计算的基础上,加入了词语定义的义原间的反义、对义关系、单
义元的否定和符号义元”^”和”~ ”定义信息来计算词语的相似度,并在词语定义词典的存储方式做了改进,利用汉字的
编码来组织词典。计算句子相似度前加入词语的消歧,在计算句子相似度时考虑了词语定义的关系义元与待比较的词定义
的某个义元相等的情况,并加大了关系义元的比重。实验表明:本文的方法计算词语相似度更加合理准确,进而提高句子
的相似度计算精度,且由于存储方式的改进,提高了词语查找速度。
关键词 知网;词语相似度;义原相似度;字典结构;句子相似度
1 引言
相似度的计算是中文信息处理中最为基础和重 度,并在词语定义词典的存储方式做了改进,利用汉
要的工作,它直接决定着某些领域的研究和发展。如 字的编码来组织词典。实验表明:一些区别词的相似
机器翻译、信息检索、自动文摘、自动问答系统等领 度更加合理,且提高了词语的查找速度。本文在计算
域。句子相似度是一个关键的问题,一直以来都是人 句子相似度时考虑了词语定义的关系义元与具体义元
们研究的热点和难点。本文句子相似度的研究主要以 相关的情况。如果词语定义的关系义元与待比较的词
人工智能心理咨询系统为应用背景,在人工智能心理 的定义的某个义元相等时,说明两个词语之间存在一
咨询系统句子相似度的计算中起着决定性的作用。人 定程度上的同义,可以相互替换机率比较大,必然词
工智能心理咨询系统主要是计算咨询者提出的问题与 语的相似度也很高。所以,本文认为关系义元比重应
问题库问题之间的相似度,把相似度高的问题的答案 该和其他义元的比重一样。
返回给咨询者。词语的相似度计算对句子相似度计算
本文第2节对相似度进行简单介绍;第3节介绍基
的处理起着至关重要的作用,如果只从关键词上进行
于HowNet的词语相似度的计算;第4节对字典的设计
匹配处理却没有深入到词语的语义层次,词语相似度
的改进进行讨论;第5节介绍句子相似度的计算;第6
计算的结果也不会合理准确,句子的匹配结果也不会
节实验结果与分析;第7节对全文进行总结与展望。
准确。词语的语义相似度的计算,目前主要有两类计
算方法:一类是基于语义字典的相似度计算方法(如 2 相似度简介
同义词词林、知网、WordNet等);另一类是基于统
计的相似度计算方法(如TF-IDF等)。目前国内,以《知 2.1 词语语义相似度
网》为基础的词语相似度计算是当前较好的方法之一 Dekang Lin 认为任何两个事物的相似度取决于
[1]
。《知网》是我国著名机器翻译专家董振东先生几 它们的共性(Commonality)和个性(Diferentces) [3] ,
十年工夫创建的一个知识系统,它含有丰富的词汇语 然后从信息理论的角度给出任意两个事物相似度的通
义知识和世界知识,内部结构复杂。 用公式(公式1):
[2] l
文档评论(0)