- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本体的分布式信息检索
本体在分布式信息检索中的应用
马小霞 郑会云
(山东曲阜师范大学 信息技术与传播学院,山东 日照 276800)
摘要: 随着数字化信息的爆炸式增长,Internet成了一巨大数据库。现有的搜索引擎检索出的内容已难以保证与用户所需内容的精确匹配。本文所研究的结合本体的分布式信息检索能有效地改善这一问题,提高检索的效率和准确率。
关键词: 本体;信息检索;分布式检索算法
Abstract: with digital information exploding, Internet has become a huge database. The content crawl out from existing search engines is difficult to match with users required accurately. Distributed information retrieval with ontology can improve the problem effectively and improve the retrieval efficiency and accuracy
Key word: Ontology; information retrieval; distributed retrieval algorithm
引言
近年来,随着人们对检索效率和准确率要求的不断提高,使得本体在信息检索中的应用得到迅速发展。基于移动Agent的分布式的多层结构已经广泛地应用在数据库系统的研究与开发中,能有效提高检索系统的效率、灵活性和可扩展性。在信息检索中,结合本体与分布式技术进行信息检索已经成为人们研究的热点。一、本体概述
随着人们对知识表示、信息组织和复用以及为用户提供有效服务的需求越来越强,本体(Ontology)作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自提出以来就引起了国内外众多科研人员的关注,并在许多领域得到了广泛应用,如语义Web、智能信息检索、信息集成、数字图书馆等领域。
(一)本体的定义
本体(Ontology)是一个从哲学领域引入的词汇。 Ontology的含义是从抽象的、形而上学层面逐渐转化为工具性的、具有特定意义的理解。因此,Ontology在不同的语境中有不同的解释。1998年Studer[1]提出“本体是共享概念模型的明确的形式化规范说明”这一概念得到了学术界的广泛认同。此概念体现了本体的以下几层含义:
概念模型(Conceptual model):通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含义独立于具体的环境状态。
明确(explicit):所使用的概念及使用这些概念的约束都有明确的定义。
形式化(formal):本体是计算机可读的。
共享(share):本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。[2]
(二)本体的分类
根据不同的属性,可将本体分为不同的类别。
1、按照分类 顶层(top-level)本体 领域(domain)本体任务(task)本体 应用(application)本体 按照细化程度分类参考(reference)本体:详细程度高;共享(shareable)本体:详细程度低。
3 按照形式化程度分类
()结构非形式化:用限制的结构化的自然语言表示;(2)高度非形式化:用自然语言松散表示;(3)半形式化:用半形式化(人工智能)语言表示;
(4)严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。
KIF、SHOE、XOL、OCML、Loom等。期中,与Web相关的有:RDF和RDF-S、OIL、DAML、OWL、SHOE、XOL。RDF和RDF-S、OIL、DAML、OWL、XOL之间有着密切的联系,是W3C的本体语言栈中的不同层次,也都是基于XML的。SHOE是基于HTML的,也是在HTML基础上的一个扩展。另外,与具体系统相关的(基本只在相关项目中使用的)有:Ontolingua、CycL、Loom。
分布式信息检索分析
分布式信息检索主要是指在分布式的环境中,利用分布式计算和移动代理等技术从更大量的、异构的信息资源中检索出对用户有用的信息的过程。[4]分布式环境指的是信息资源在物理上分布于各地,小到一个办公室,大到跨越国家。这些分布式的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统。
(一)分布式信息检索原理
一个简单的分布式信息检索系统由信息库服务器和多个代理服务器两部分构成。在一个代理处理器的检索系统中,用户向broker提交检索提问式,broker将会用这一检索提问式检索信息服务器的子集完成信息的查找。子集中的每个信息库服务器
文档评论(0)