基于语义网技术信息检索研究.docVIP

下载本文档

11
0
约5.15千字
约 12页
2018-08-30 发布于福建
举报
版权申诉

基于语义网技术信息检索研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义网技术信息检索研究

基于语义网技术信息检索研究　　摘要：语义网致力于改善读者检索体验，是Web3.0技术的一个核心指标。本文首先分析了基于关键词的机械式匹配的传统信息检索系统的不足，其次描述了语义网的特征、体系结构、并分析了语义网检索系统的关键技术，最后，在此基础上构建出基于语义网技术的信息检索系统。　　关键词：语义网；检索；智能　　校级科研项目：本文系郧阳师范高等专科学校校立科研项目“基于语义网技术的武当文化特色库检索模型研究”（编号：2012B06）的研究成果之一。　　在进入大数据时代的今天，万维网（WWW）成为了人们生活和工作中获取信息的一个重要渠道，它是面向文档的，信息量丰富、获取简便。和传统信息相比，因其表现形式多样而往往会出现组织形式整体无序或局部无序的状态。在广袤的信息资源面前，怎样迅速获取自己想要的信息是迫切需要解决的问题。万维网联盟的创始者蒂姆?伯纳斯-李（Tim Berners-Lee）在1998年提出了“语义网”的概念，它的核心是：通过给万维网上的文档（如： HTML）添加能够被计算机所理解的语义（Meta data），从而使整个互联网成为一个通用的信息交换媒介[1]。语义网是一种能够理解人类语言的智能网络，因此，语义网的初步实现也作为智能网络web3.0的重要特征之一。　　1 传统信息检索存在的问题　　信息检索是指从信息资源集合中查找所需文献，或查找文献中包含的信息内容的过程。Baidu、Google等搜索引擎的诞生，让人们从无序的、海量的网络信息中抽取自己想要的信息成为了可能，这种检索工具让万维网的作用得以充分发挥，在某种程度上促进了信息革命。但人们很快就发现，用户在使用这些检索工具时，虽能能得到许多信息，但有时很难迅速地找到自己想要的信息。这种传统的信息检索技术，都是基于关键词机械匹配的，虽然具有使用简单、快捷的优点，但是因为缺乏语义描述，所以存在以下几个问题：　　（1）忠实表达的问题。有些情况下，用户无法用一个确切的词语来表达自己需求的信息时，就无法使用搜索引擎。　　（2）表达差异的问题。在人类语言当中，一词多义和一义多词是比较普遍的。一词多义，如“苹果”，即可以指人们吃的苹果，也可指某一种品牌的计算机。如果用传统的检索方法，就会产生查准率的问题；一义多词即同义词，如“立刻”、“马上”，如果用传统的检索方法，只检索一个词语，又会带来查全率的问题。　　（3）词汇孤岛的问题。“词汇孤岛”是指传统的信息检索不能将关键词关联起来，每个关键词像孤岛一样独立存在[2]。比如：检索“文具”，理论上讲，钢笔、直尺、橡皮都是文具，但在检索结果中一般都不会出现含有带“钢笔”、“直尺”、“橡皮” 的网页。　　（4）机械表达的问题。传统的信息检索工具只能机械地从字形上标识关键字，比如：检索“图书”，会机械匹配出一大堆与“图书馆”相关的信息。　　2 语义网及其关键技术　　人们为了解决上述传统信息检索中存在的问题，开始了语义网技术的研究。语义网是一种智能网络，它不仅可以理解词语和概念，而且还能够理解词汇之间的逻辑关系，从而使人机交互变得更有效率。对语义网技术的研究，需要对语义网的基本特征、体系结构和关键技术有一定的了解。　　2.1 语义网的基本特征　　语义网虽然是WWW的延伸，但它与WWW有很大的区别，它不仅可使用自然语言表现网络内容，而且这些内容还可以被软件代理人（software agent）所阅读和使用。 “语义网”是计算机和互联网界在描述下一阶段网络发展时所使用的术语[3]。所谓“语义”就是文本的含义，语义网就是能够根据语义进行判断的网络，也就是一种能理解人类语言，可以使人与电脑之间的交流变得像人与人之间交流一样轻松的智能网络[3]。依据这种设计理念，语义网具有以下几个特征：语义网是WWW的扩展与延伸；语义网则面向文档所表示的数据；语义网具有一定的判断、推理能力，其指令便于计算机理解与执行[4]。　　2.2 语义网的体系结构　　万维网的缔造者Berners-Lee，在1998年提出了语义网的概念。当他提出这个概念时，RDF开始崭露头角；XML技术已经被广泛使用；在知识工程领域，已经对本体技术、逻辑语义研究了几十年。而Berners-Lee对这些技术进行分析与总结，将以上技术融合在一起，设计出了语义网的体系架构。在2000年，他又提出了语义网的体系结构，如图1所示。　　Berners-Lee将整个语义网结构分为七个层次：标识符和字符集层、根标记语言层、资源描述框架层、本体层、逻辑层、证明层、信任层，在不同的机构层次中，又融合了多种互联网新技术，最终实现语义检索。　　2.3 语义网检索系统的关键技术　　构建基于语义网的信息检索系统的目的，是为了能让计算机轻松地理