基于语义web的信息检索技术分析-analysis of information retrieval technology based on semantic web.docxVIP

下载本文档

4
0
约5.06万字
约 60页
2018-08-14 发布于上海
举报
版权申诉

基于语义web的信息检索技术分析-analysis of information retrieval technology based on semantic web.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义web的信息检索技术分析-analysis of information retrieval technology based on semantic web

江苏科技大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权江苏科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于：(1)保密□，在年解密后适用本授权书。 (2)不保密□。学位论文作者签名：指导教师签名：年月日年月日第 1 章绪论1.1 研究工作的背景和意义随着 Internet 技术的不断发展和进步，World Wide Web 已然成为当前人们获取信息的一个不可或缺的重要来源渠道。目前，全球的网页超过 100 亿，每天新增加的数百万网页，这些趋势说明了信息资源越来越丰富，信息量也越来越大，并且以几何式的速度在增长。为了有效获取信息，对信息检索技术的研究日显重要，信息检索也日益成为了信息社会中不可或缺的一种工具手段[1]。传统的信息检索技术都是基于关键词匹配和全文检索技术，主要实现的方式是借助于目录、索引等方法。此信息检索技术具有简单，快捷和易实现等优点，但是也存在许多问题：?“忠实表达”问题：在检索的时候，用户很难通过几个简单的关键词来表达所要检索的需要，而且这些关键词也常常不能充分揭示用户所需信息的实质内涵。?“表达差异”问题：传统的信息检索技术采用关键词匹配并不是词义匹配，这样使得一义多词和一词多义的现象常常导致检索的结果不满足用户的需要，并且查全率和查准率也得不到保证。?“词汇孤岛”问题：由于概念之间存在各色各样的联系，在传统信息检索中，对于这种概念之间的语义难于表达。这些问题的出现主要原因在于它是面向用户设计的，是让用户直接阅读理解和处理，然而没有向机器提供可理解的语义信息，从而大大限制了计算机进一步智能化处理的能力。并且传统的信息检索技术应对海量信息的能力还很差，检索的结果远远满足不了用户的需求。面对海量的信息，人们希望出现突破性的信息检索技术，该技术能够支持更加强大的信息检索功能，具备理解语义和自动扩展，联想能力并为用户提供个性化的服务。语义 Web 的提出为解决这问题提出了新的思路，语义 Web 是面向机器的，是具有语义丰富的数据网络。在语义 Web 中信息被赋予了良定义的含义，从而使计算机可以更好地和人协同工作。语义 Web 的核心是本体技术，本体是共享概念模型的形式化规范说明，是具有良好的概念层次结构和对逻辑推理的支持。将语义 Web 技术与本体技术融入到信息检索中，能够将信息检索从基于关键词匹配提升到基于知识层面的语义匹配，形成了语义信息检索，该语义信息检索能够将用户查询请求通过语义理解和分析转换成语义概念，从而检索出于此概念相关的，也是用户真正所需的信息，克服了传统信息检索技术的局限性。1.2 国内外研究现状及分析信息检索（Information Retrieval）是对信息进行表示、存储、组织和存取，通常是指文本信息检索[2]，其核心是文本信息的索引和检索，起源于图书馆的参考咨询和文摘索引工作，从 19 世纪下半叶首先开始发展，到 20 世纪 40 年代，索引和检索已成为图书馆独立的工具和用户服务项目。从发展阶段上看，信息检索经历手工检索、计算机检索到目前网络化、智能化检索等多个阶段。目前，信息检索已经发展到网络化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的 Web 内容。信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众。集合论模型检索：特别检索用过滤户任务经典模型布尔模型向量模型概率模型结构化模型非重叠链表模型邻近结点模型模糊集合论模型扩展布尔模型代数模型扩展向量模型潜语义标引模型神经网络概率模型推理网络模型信任度网络模型浏览浏览扁平式模型结构向导模型超文本模型图 1.1 信息检索模型的分类Fig1.1 Classification of Information Retrieval Model传统的信息检索有三个经典模型[3]，它们分别是：布尔模型、向量模型和概率模型。在布尔模型中，文献和查询用标引词集合来表示，称该模型是集合论（settheoretic）模型；在向量模型中，文献和查询用 t 维的向量来表示，则称该模型是代数（algebraic）模型；在概率模型中，用于构建文献和查询模型的机制是基于概率论的，则称该模型是概率（probabilistic）模型。在这些经典的模型之上，人们提出了各种不用的改进模式。在基于集合论的模型中，又提出了模糊集合论模型和扩展布