汉语词语及句子相似度算法研究与应用-计算机软件与理论专业论文.docxVIP

下载本文档

4
0
约6.7万字
约 71页
2019-04-05 发布于上海
举报
版权申诉

汉语词语及句子相似度算法研究与应用-计算机软件与理论专业论文.docx

1、本文档共71页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据摘要摘要词语和句子的相似度计算在信息检索、文本分类、问答系统以及基于实例的机器翻译等各领域中都有着广泛的应用。作为目前讨论的重点，本文主要从语义的角度出发对基于“知网”的词语及句子相似度计算方法进行了深入的研究。基于“知网”的词语（句子）相似度计算通常是把义原（词语）之间的最优匹配对作为运算的基本单位，最终的整体相似度可由每一部分的相似度值通过适当的加权计算合成而来，这样的做法往往会造成一些匹配对内部信息的重复和结构的不合理。本论文正是针对该问题，在深入分析“知网”体系结构的基础上，对词语和句子的相似度计算以及词义消歧做了创新性和探索性的研究。主要内容为： 1．详细研究了当前基于“知网”的义原相似度计算方法。这类义原相似度计算机制往往是通过计算两个义原在上下位层次关系树中的路径距离来得到义原之间的相似度，没有或者很少考虑义原在层次树中的深度，本文综合考虑了义原间的路径距离以及义原层次树的深度，从义原所包含的信息结点数量出发，得到了一种新的义原相似度计算方法。 2．详细研究了目前常用的词语及句子相似度计算方法，并把讨论的重点放在了基于“知网”的词语及句子相似度计算上面。文章从信息论的角度出发，在上文所提出的义原相似度算法基础上，分别对两个义原集合之间的共有信息和差异信息进行统计，并据此得出两个义原集合之间的相似度，最终的词语（句子）相似度计算是以义原集合为计算单位的。 3．研究了目前常用的词义消歧算法的基本原理和具体方法。在“知网”提供的搭配实例以及上文中提出的句子相似度算法基础上，得到了一种简便快捷的词义消歧方法。 4．具体分析了自动问答系统构建的技术方法和模块架构，以基于常问问题集的问答系统模型为实例，体现了词语及句子相似度在具体应用领域中的重要性。关键词：知网，词语相似度，句子相似度，共有信息，差异信息 I ABSTRACT ABSTRACT Word and sentence similarity play an increasingly important role in many fields such as information retrieval, text categorization, question-answering and example-based machine translation. As the currently hot topic, this thesis studies the word and sentence similarity computing based on the “Hownet” in depth mainly form the perspective of semantic. Word (sentence) similarity computing based on the “Hownet” usually treats the optimal matches between the primitives or words as the basic unit, and the ultimate outcome can be the sum of weighted counts. However, this approach often results in the information duplication and irrational constructions. To deal with these issues, the basic architecture of “Hownet” has been analyzed, and novel algorithms and process are explored and investigated for word and sentence similarity. The main results are as follows: Some algorithms for similarity of primitives in “Hownet” have been studied in detail. These algorithms computed the similarity of primitives through quantifying the semantic paths between two primitives. This mechanism has little or no consideration of the depth of primitives in hierarchical structure. In this t