- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
随着互联网的不断壮大,WEB已成为当今最大的信息载体,是人们获取信息
的主要来源。信息检索技术作为人们获取信息的最主要的手段之一已得到了迅速
的发展,但日益增长的网络信息资源,使得人们准确检索的需求并不能得到很好
的满足,同时,WEB信息也无法被自动处理和有效利用。其中,最主要的原因在
于:过大的资源基数使得通用检索系统返回的信息广而不精,且主题漂移现象频
繁出现,用户将浪费较多的时间和精力来获取有用信息;另一方面,语义孤岛现
象,即网络信息异构、服务异构以及人机理解的差别使得检索系统的有效召回率
和召回精度都大打折扣。
作为语义网核心的本体技术承担着语义表达的重要责任,通过本体支持语义,
支持人机之间的交流,从而实现机器智能,为Web的发展带来了新的契机。本体
在主题搜索引擎中的应用,必将对信息检索系统的易用性和效率产生极大的改进,
从而最大程度迎合用户的检索需求。基于此,本文设计并构建了一个基于本体的
主题信息检索原型系统,力求一定程度上提高信息的有效利用率和检索系统的效
率。主要研究内容和创新有如下几个方面:
①构建了一个计算机技术领域中文本体。在现有本体理论、构建方法和技术
的基础上,综合应用需求,对传统的本体建模方法进行了改进和完善。一方面,
为确保概念的质量,本文综合筛选科研文献关键词、分类主题词表和一些通用知
识库中的概念;另一方面,以应用需求为导向,明确本体构建目的,一定程度上
减少了细节的干扰。基于此,论文设计并半自动构造了一个计算机技术领域的中
文本体,并进行了相关查询实验,为进一步基于本体的语义信息检索应用研究做
铺垫。
②基于本体的查询扩展实现。基于关键词匹配的通用搜索引擎无法应付语义
孤岛现象,因此,我们采用概念匹配,即对其进行语义扩展,以求解决相关、相
似的信息由于主题词表达方式的不同而无法被系统检索和返回。本文的查询扩展
主要是基于概念间的关联程度。鉴于两个概念之间的关联度不仅与其概念之间定
义的内在关系(包括公有属性等)有关,还与其在本体树中的分布距离相关,也
即由结构内和结构外两因素主导,前者简称为相关度,后者为相似度。本文在现
有相似度算法研究基础之上,综合需求,对最终概念关联算法进行了改进,并以
此设计和实现了一个适合本文原型系统的扩展算法。
③基于本体的主题信息检索原型系统的设计与构建。包括本体查询子系统和
Web主题语义检索系统两大模块。一方面,为了方便用户对领域概念和知识系统
进行了解和随时查询,同时也为规范主题信息检索系统中查询的概念表述,论文
设计并构建了一个简单的本体查询子系统,查询内容有本体概念、属性以及关系
等,并以本体树的形式对本体进行整体表述。另一方面,在已研究实现的领域本
体、概念相似度计算以及查询扩展模块的基础上,论文设计并成功实现了一个Web
主题语义检索系统,以期改进通用搜索引擎的效率。
为了验证改进算法的有效性以及检索系统的效率,文章最后进行了对比实验,
实验结果表明,基于本体的主题查询系统能很好的扩展并返回查询相关信息,一
定程度上提高了基于关键词匹配检索系统的召回精度和召回率。
关键词:语义网;本体;主题检索;语义相似度;查询扩展
ABSTRACT
Withthe of hasbecomethe
Intemet,Web
continuingdevelopment largest
information obtaininformation oneof
carrier,where mainlyfrom.Currently,as
people
themost meansof retrieval
information,informationtechnology
important obtaining
文档评论(0)