- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于领域本体的文本相似度算法
31 3 ( ) Vol. 31 No. 3
第 卷第 期 苏 州 大 学 学 报 工 科 版
20 11 6 JOURNAL OF SOOCHOW UNIVERSITY (ENGINEERING SCIENCE EDITION) Jun. 20 11
年 月
文章编号:1673 - 047X (20 11)- 03 - 00 13 - 05
基于领域本体的文本相似度算法
1 1,2 1
, ,
王 晋 孙 涌 王璁玮
(1. , 215006 ;2 . , 215006)
苏州大学计算机科学与技术学院 江苏苏州 江苏省计算机信息处理技术重点实验室 江苏苏州
: 。
摘 要 文本相似度计算在专利信息分析系统中有着广泛的应用前景 传统的基于向量空间模型
, ,
的文本相似度计算方法 一方面未能很好地考虑上下文信息对词语语义的约束 导致不能对不同语
; ,
境中词语的语义进行有效区分 另一方面使用词典作为计算相似度的依据具有领域相关性 在特定
。 ,
领域未能给出有效的语义理解 提出一种使用领域本体作为文本相似度计算基础的方法 该方法中
;
使用语义消歧来解决上下文对于词语语义的影响 使用领域本体概念意义相同关系来计算文本相似
。 。
度 实验结果显示本方法的准确度相对于现有典型的相似度计算方法有所提高
: ; ;
关键词 领域本体 文本相似度 语义距离
中图分类号:TP391. 1 文献标识码:A
0 引 言
, 、 、
文本中的相似度计算是自然语言处理领域中的关键问题之一 在信息检索 信息抽取 专利分析等领域都
。 , Levenshtein V I Levenshtein ,
有着重要的应用价值 国内外学者提出了各种文本相似度模型 如 提出的 算法
, 。Gerard Salton Mcgill
将文档构成的基本单位视为字符串 通过最大匹配子字符串来衡量相似性 和 也在统计
[1]
相似性方面提出了向量空间模型 , ,
把文档简化为以特征项的权重为分量的向量表示 通过词频统计和向量
。 ,
降维处理计算相似度 但这些相似度模型均是基于统计学的计算方法 需要大规模语料库的支持和较
文档评论(0)