- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
摘要
摘 要
词语和句子的相似度计算在信息检索、文本分类、问答系统以及基于实例的 机器翻译等各领域中都有着广泛的应用。作为目前讨论的重点,本文主要从语义 的角度出发对基于“知网”的词语及句子相似度计算方法进行了深入的研究。
基于“知网”的词语(句子)相似度计算通常是把义原(词语)之间的最优 匹配对作为运算的基本单位,最终的整体相似度可由每一部分的相似度值通过适 当的加权计算合成而来,这样的做法往往会造成一些匹配对内部信息的重复和结 构的不合理。本论文正是针对该问题,在深入分析“知网”体系结构的基础上, 对词语和句子的相似度计算以及词义消歧做了创新性和探索性的研究。主要内容 为:
1.详细研究了当前基于“知网”的义原相似度计算方法。这类义原相似度计 算机制往往是通过计算两个义原在上下位层次关系树中的路径距离来得到义原之 间的相似度,没有或者很少考虑义原在层次树中的深度,本文综合考虑了义原间 的路径距离以及义原层次树的深度,从义原所包含的信息结点数量出发,得到了 一种新的义原相似度计算方法。
2.详细研究了目前常用的词语及句子相似度计算方法,并把讨论的重点放在 了基于“知网”的词语及句子相似度计算上面。文章从信息论的角度出发,在上 文所提出的义原相似度算法基础上,分别对两个义原集合之间的共有信息和差异 信息进行统计,并据此得出两个义原集合之间的相似度,最终的词语(句子)相 似度计算是以义原集合为计算单位的。
3.研究了目前常用的词义消歧算法的基本原理和具体方法。在“知网”提供 的搭配实例以及上文中提出的句子相似度算法基础上,得到了一种简便快捷的词 义消歧方法。
4.具体分析了自动问答系统构建的技术方法和模块架构,以基于常问问题集 的问答系统模型为实例,体现了词语及句子相似度在具体应用领域中的重要性。
关键词:知网,词语相似度,句子相似度,共有信息,差异信息
I
ABSTRACT
ABSTRACT
Word and sentence similarity play an increasingly important role in many fields such as information retrieval, text categorization, question-answering and example-based machine translation. As the currently hot topic, this thesis studies the word and sentence similarity computing based on the “Hownet” in depth mainly form the perspective of semantic.
Word (sentence) similarity computing based on the “Hownet” usually treats the optimal matches between the primitives or words as the basic unit, and the ultimate outcome can be the sum of weighted counts. However, this approach often results in the information duplication and irrational constructions. To deal with these issues, the basic architecture of “Hownet” has been analyzed, and novel algorithms and process are explored and investigated for word and sentence similarity.
The main results are as follows:
Some algorithms for similarity of primitives in “Hownet” have been studied in detail. These algorithms computed the similarity of primitives through quantifying the semantic paths between two primitives. This mechanism has little or no consideration of the depth of primitives in hierarchical structure. In this t
您可能关注的文档
- 关于树上马尔可夫链场的若干强大数定律-应用数学专业论文.docx
- 贵阳中小型房地产企业智力密集型部门人力资本要素模型分析——以8家企业为例-企业管理专业论文.docx
- 滚动轴承摩擦力矩的试验数据研究-机械设计及理论专业论文.docx
- 哈工大资产公司绩效考核管理体系优化研究-工业工程专业论文.docx
- 关于图的距离关联着色的研究运筹学与控制论专业论文.docx
- 广东省与台湾体育社会组织比较研究-体育学专业论文.docx
- 广西农业现代化发展水平研究-农业经济管理专业论文.docx
- 光学相干断层扫描观察糖尿病视网膜病变全视网膜激光光凝术后黄斑区变化-临床医学(眼科学)专业论文.docx
- 国有石油企业跨国并购后的跨文化冲突与管理研究-管理科学与工程专业论文.docx
- 郭兰英的歌唱艺术在中国民族声乐发展中的历史地位-音乐学专业论文.docx
- 携程产品营销经理岗面试题库参考答案和答题要点.docx
- 携程产品经理岗面试题库参考答案和答题要点.docx
- 携程供应链管理专员岗面试题库参考答案和答题要点.docx
- 携程交易数据分析师岗面试题库参考答案和答题要点.docx
- 携程公共关系专员岗面试题库参考答案和答题要点.docx
- 携程内部培训专员岗面试题库参考答案和答题要点.docx
- 福建省福州市2023-2024学年高二上学期期末测试英语试卷(含答案).pdf
- 携程人力资源专员岗面试题库参考答案和答题要点.docx
- 福建省三明市2023-2024学年高二上学期期末测试英语试卷(含答案).docx
- 福建省三明市2023-2024学年高二上学期期末测试英语试卷(含答案).pdf
最近下载
- 青岛版六年级上册劳动教案(教学设计).pdf
- 上海政法学院2020-2218学年度《宏观经济学》期末考试试卷含标准答案.docx
- 教研教培课件:《基于“数学核心素养”的初中教材解读的理论研究与实践探索》.pptx
- 上海政法学院2021-2022学年度《宏观经济学》期末考试试卷含标准答案.docx
- 基于高中语文学习任务群的思辨性阅读研究结题报告.pdf
- Python程序设计 13. numpy和pandas数据分析.ppt
- 2024-2025学年初中地理八年级上册人教版(新课程标准)(2024)教学设计合集.docx
- 宪法宣传主题班会(主题班会).ppt
- 品质管理的三现五原则.ppt
- 高中语文教学课件:古诗鉴赏之诗评类主观题指导.pptx
文档评论(0)