- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语义网在数字图书馆信息检索中的应用.doc
语义网在数字图书馆信息检索中的应用
【摘 要】基于字面匹配检索的传统数字图书馆信息检索方法在检索效率方面存在一定的缺陷。新一代语义网在语义理解、信息关联方面有其独特优势,其在数字图书馆信息检索系统中的应用必将大大提高信息检索效率。
【关键词】语义网;数字图书馆;信息组织;信息检索
数字信息资源的海量增长导致了人类信息行为的改变。数字图书馆以其时空的便利性越来越收到人们的重视,人们更多地通过图书馆的信息检索系统来获得所需的资源。但数字图书馆传统的信息检索系统的缺陷也逐渐显现出来。
一、数字图书馆传统信息检索系统存在的问题
目前数字图书馆中搜索引擎多以传统的关键词检索为主。这种检索方式曾在一定程度上满足过用户的需求,但由于字义本身与其概念的延伸经常不在同一级,使得寻得结果往往仅与字面意义相匹配,与人们想得到信息概念及其相关的成分的意愿相违背。首先,传统的检索系统难以准确理解用户的检索需求。如当用户需要查找题名中包含“计算机”的文献时,其真实的检索意图是将关于“计算机”、“电脑”等具有同一语义的文献都查找出来。其次,检索系统返回的多篇文章往往只按相关度、实践、被引频次等进行排序,各篇文献之间相互独立,缺乏语义上的联系。
二、概念语义检索的优势
(一)语义检索系统可以收集用户的相关信息,分析用户的检索行为,了解用户的检索特征与检索爱好,创建符合用户特征的访问模式,从一定程度上提高用户的检索效率。
(二)对用户检索语义的确切理解保证了检索结果的可靠性。概念语义检索克服了字面匹配检索的弊端,使检索结果更接近用户真实的检索需求。
(三)用户可以对系统提供的服务做出信息反馈,对检索结果进行打分排序,系统可根据反馈信息调整服务,从而达到个性化搜索。
三、语义网及其体系结构
1998年,万维网之父Tim Berners-Lee 提出“语义网”(Semantic Web)理念。语义网的基本思想是在网络信息的创作和发布中嵌入机器可理解的知识元数据,使计算机具备更强的“理解”和处理数据的能力。语义网环境下,网络成为能理解人类语言的智能网,人机交流变成类似人与人的交流。2000年Tim Berners-Lee提出的语义网标准体系结构。该机制的核心由两大模块组成:① 以XML与RDF(s)为手段的信息组织模块,用于管理信息,具备部分语义。②以Ontology为手段的知识组织模块,用于管理知识,提供机器间的语义互操作。标准最底层由统一资源标识符(URI)和统一字符编码(Unicode)构成。语义网标准的第二层由可扩展标记语言(XML)、域名系统(Namespace)以及可扩展标记语言结构表(XML Schema)构成。第三层由资源描述框架(RDF)和资源描述框架结构表(RDF Schema)构成。 “XML+RDF(s)”就构成了计算机间相互理解的基础,它们是改造万维网、建立起语义网信息组织机制的三大核心技术。第五层逻辑(Logic)是在本体层之上要做逻辑推理工作。接下来就是保证信息是可信赖的这两个层次,即论证(Proof)和诚信(Trust)。
根据以上内容可知,语义网信息组织机制的核心是XML、RDF、Ontology。XML(可扩展标记语言)被誉为“语义标记”,是一种完全面向数据语义的置标语言。XML Schema提供了规定XML 文档结构和内容约束的机制。Namespace则是解决自定义标记过程中名称冲突问题的。RDF(资源描述框架)是网络资源通用描述框架,它是以三元组:主体—谓词—客体,来对网络信息资源进行简单描述的。RDF是一个开放的元数据集成方案。采用RDF来处理不同类型元数据集合,可以实现元数据之间的互操作,使计算机可以理解语义。XML与RDF结合解决了信息建立于信息描述的开放机制和系统的开放性,有利于资源的共享。Ontology(本体)在人工智能领域指的是对共享概念模型的明确的形式化规范说明。
四、概念语义检索的实现
(一)概念语义检索的原理。概念语义检索的原理主要分为三个过程:首先,用户向系统输入检索请求,由于用户的知识领域的差异,输入的关键词的准确性有差别,需要系统对检索需求进行语义分析,分析出用户真正的检索需求。第二,概念语义检索系统须对数字对象进行描述和表示,对海量的信息资源进行描述和表示是信息资源数字化整序的过程。第三,语义检索系统将分析出的用户真正的检索意图的认知表达式与概念语义检索系统中整合后的资源进行匹配,检索出所需的信息资源。
(二)概念语义检索的流程。(1)创建元数据:收集各学科的数字信息资源,在MARC、DC等元数据标准下,利用XML、RDF等语义网技术,更准确地描述数字对象的语义,建立元数据并存储在元数据库中。(2)创建
文档评论(0)