基于领域本体的文本相似度算法.pdf

下载文档

11
0
约1.95万字
约 6页
2018-03-31 发布于河南
举报
版权申诉
保障服务

基于领域本体的文本相似度算法.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于领域本体的文本相似度算法

31 3 ( ) Vol. 31 No． 3 第卷第期苏州大学学报工科版 20 11 6 JOURNAL OF SOOCHOW UNIVERSITY (ENGINEERING SCIENCE EDITION) Jun． 20 11 年月文章编号:1673 － 047X (20 11)－ 03 － 00 13 － 05 基于领域本体的文本相似度算法 1 1，2 1 ，，王晋孙涌王璁玮 (1．， 215006 ;2 ．， 215006) 苏州大学计算机科学与技术学院江苏苏州江苏省计算机信息处理技术重点实验室江苏苏州 : 。摘要文本相似度计算在专利信息分析系统中有着广泛的应用前景传统的基于向量空间模型，，的文本相似度计算方法一方面未能很好地考虑上下文信息对词语语义的约束导致不能对不同语 ; ，境中词语的语义进行有效区分另一方面使用词典作为计算相似度的依据具有领域相关性在特定。，领域未能给出有效的语义理解提出一种使用领域本体作为文本相似度计算基础的方法该方法中 ; 使用语义消歧来解决上下文对于词语语义的影响使用领域本体概念意义相同关系来计算文本相似。。度实验结果显示本方法的准确度相对于现有典型的相似度计算方法有所提高 : ; ; 关键词领域本体文本相似度语义距离中图分类号:TP391． 1 文献标识码:A 0 引言，、、文本中的相似度计算是自然语言处理领域中的关键问题之一在信息检索信息抽取专利分析等领域都。， Levenshtein V I Levenshtein ，有着重要的应用价值国内外学者提出了各种文本相似度模型如提出的算法，。Gerard Salton Mcgill 将文档构成的基本单位视为字符串通过最大匹配子字符串来衡量相似性和也在统计［1］相似性方面提出了向量空间模型，，把文档简化为以特征项的权重为分量的向量表示通过词频统计和向量。，降维处理计算相似度但这些相似度模型均是基于统计学的计算方法需要大规模语料库的支持和较