基于本体智能检索技术研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本体智能检索技术研究

基于本体智能检索技术研究   摘要:目前检索技术主要依赖于编码技术,由于编码描述只能反映出部分语义,因此不能保证语义的匹配;检索过程是把用户的查询关键词与全文中的每一个词进行比较,而不考虑查询请求与文档语义上的匹配。网络信息检索面临两个亟待解决的关键问题,一是搜索的结果相关度低,冗余信息太多;二是搜索引擎无法对常识性问题给予回答,智能化水平低。针对上述两个关键问题,需要运用本体论的相关知识,提出基于本体的智能搜索引擎模型,该模型能够根据用户的查询关键字或者询问问题,进行语义分析,从而提高检索结果的相关度,并且实现一定程度的语义检索。   关键词:搜索引擎 本体 智能检索   1 搜索引擎概述   搜索引擎利用网络自动搜索功能,对各种信息资源分门别类地进行标引、建库,并对信息进行理解、提取、组织和处理,从而起到信息导航的作用,帮助人们从不同形式的数字化信息中进行搜索。   搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。   1.1 传统搜索引擎工作原理 传统搜索引擎一般的工作过程是:首先对互联网上的网页进行搜集,然后对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。搜索服务器根据系统关键词字典,把用户输入的搜索关键词转化为wordID,然后在标引库(倒排文件)中得到docID列表,对docID列表中的对象进行扫描并与wordID进行匹配,提取满足条件的网页,然后计算网页和关键词的相关度,并根据相关度的数值将结果返回给用户。   1.2 传统搜索引擎的不足及其改进 传统的通用搜索引擎AltaVista、百度和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:①不同领域、不同背景的用户往往具有不同的需求,通用搜索引擎所返回的结果冗余度高。②基于关键字的检索的传统搜索引擎,难以支持根据语义信息提出的查询。③传统搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源的有限性与网络数据资源的开放性和无限性之间的矛盾将进一步突出。   由于用户查询信息一般都是基于某个特定领域进行信息检索,因此,在局限于某一特定领域或某一特定主题的情况下进行原始信息的收集,可以大大提高信息检索的精确度,从而出现了基于领域本体的搜索引擎技术,并且这种搜索引擎由于在特定主题的限定下进行数据的搜索,要求搜索引擎具有智能化的特性,能够识别所搜索的网页是否与其主题相关,并且在搜索的过程中,能够沿着与主题最相关的链接进行搜索。   2 本体论   本体是某个领域内(可以是特定专业的,也可以是宽泛范畴的)不同主体(人、代理、机器等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供定义明确的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。   2.1 本体的概念和作用 本体这个术语来自于哲学,根据韦氏词典的解释,本体是形而上学的一个分支。目前本体在人工智能领域得到广泛研究和应用,但尚未形成统一的定义,最广为流传的定义:本体是对共享概念模型的形式化明确说明。   本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的确定词汇外延的有关规则的定义;其目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定领域内通用的词汇,并给出这些词汇(术语)和词汇之间相互关系的明确定义。   2.2 本体的表示 目前有两种本体表示方法应用比较广泛,一是传统的四元素表示方法,该方法在世界范围内得到了比较高的认同,但是形式过于灵活,不易掌握。二是较新的六元组表示法,这种法因为定义规范,可操作性强,得到了广大国内研究者的欢迎。   六元组表示法的基本思想就是用一个六元组来表示一个本体。   An Ontology={C,AC,R,AR,H,X}   其中C表示概念的集合。AC表示多个属性集合组成的集合,其中每个属性集合对应于一个概念。R是一个关系集合。AR是由多个属性集合组成的集合,其中每个属性集合对应于R中的一个关系。H表示概念之间的层次结构关系,X表示公理集合。   3 基于本体的智能搜索引擎   本体提供了人机交流的机制,使得机器可以理解语义,从而为搜索引擎提高效率奠定了基础。   3.1 基于本体的智能搜索引擎的设计思想 Ontology使得传统的基于关键字的检索,上升到语义检索的高度。基于本体的智能搜索引擎的基本设计思想:①在领域专家的帮助下,建立相关领域的本体;②收集信息源中的数据

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档