论个性化本体垂直搜索系统设计和技术.docVIP

论个性化本体垂直搜索系统设计和技术.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论个性化本体垂直搜索系统设计和技术

论个性化本体垂直搜索系统设计和技术   摘要:随着网络信息技术的普及,搜索引擎的性能极大的影响人们搜索有效信息的速度,因此如何优化搜索引擎的性能在该领域备受关注。本文以垂直搜索引擎理论为基础构建了一个基于本体的信息检索的框架,采用特定算法设计面向主题的搜索引擎信息抽取系统。提出了基于本体的个性化搜索引擎设计。   关键词:垂直搜索 本体 特性化 设计      ▲▲ 一、本体的定义      在计算机应用领域中,本体是对概念化的对象(concePtualization)的明确表述和描述。NicolaGuarino把概念化定义为:C=(D,W,R)其中D是一个领域,W是该领域中的相关的事务状态的集合,R是领域空间(D,W)上概念关系(concePtUalrelation)的集合,本体依赖于所采用的语言,按照表示和描述的形式化程度不同,可以分为完全形式化的、半形式化的和严格形式化。本体的形式化程度越高,越有利于计算机进行自动处理。      ▲▲ 二、个性化本体垂直搜索系统框架      作为一个垂直搜索引擎,面向领域的专业互联网搜索引擎不同于传统的大型通用互联网搜索引擎,面向某种专业领域是它的特点。面向领域的搜索引擎系统的框架如图1所示:   基本流程:1、获取信息:针对若干相关生活领域的web网站,专业爬行器不定期的对其服务器进行访问,根据本地记载的网页爬行历史纪录,确定网站中新增的或修改过的网页,并将其下载存储到本地系统,同时修改相关网页爬行历史记录。2、建立索引:检索系统会通过持久层xml文件解析器对对新增的xml文件进行解析,并将其结构化信息转化成一个文档对象,通过使用中英文联合分词系统,对文档对象建立索引,增量添加到原有索引文件中,并将索引中的无用过期信息替换或删除掉。3、处理用户查询:当用户通过web浏览器访问检索系统主页,并通过主页向检索系统发出http请求时,检索系统会对请求的关键字分词并进行本体扩展,扩展后的数据递交给引擎核心的Seacher,引擎核心的Seacher负责检索索引文件相应数据信息,并将获得的结果通过用户接口以web形式返回给查询用户。      图1 检索系统框架      ▲▲ 三、网页爬行器      构造Spider程序通常有两种方式,一种是设计为递归的程序。另一种是维护一个要抓取的网页列表,程序不断循环访问该列表,抓取那些未访问过的网页。递归形式的Spider程序如下结构:   VoidRecursiveSPider(stringuri)   {   //downioadwebsaeeordingtotheurl   //ParsetheHTMLtogeturisList   //dosomethingonHTML,suehassavethemtotheloealfile.   Foreaeh(stringtemPUrlinList)   RecursiveSPider(temPUri):   }   上述代码中,RecursivesPider用来抓取url所对应网页,并从获得的HTML代码中解析出新的超链接,之后调用程序本身继续处理。由于递归程序本省的特点,每次运行时会把每次递归的信息压入堆栈,这样当递归的程序很深时,堆栈会变得非常大,可能会耗尽整个堆栈内存而造成程序的中止。当spider发现新的链接时,将这个链接加入到列表中,而当sp记er处理完当前的页,则从列表中获取尚未访问的下一个链接。这种设计方式很适合实现对线程编程,各线程之间共享的网页列表可以用Hash表来实现。Hash表的Key是string类型的url,而其value则表示该链接处于等待,运行,完成,错误状态中的一种,可以简单的用int型的1,2,3,4来表示。各状态间的转化关系如下图2:      图2 URL的状态转换关系      spider会不断重复类似的工作,每次从Hash表中取得一个value值为1的超链接,将其状态设为2表示处理中,若有新的链接则加入到Hash表,value值为1,当此页处理完毕后,根据处理结构将其状态设为3或4。spider程序直到Hash表中没有Value为1的项才中止,这样Hash中的所有项最终的Value或者是3或者是4。对有效的网页进行结构化信息抽取。将Iniemet上同一领域的各种各样的包含所需信息的不同格式的网页中的信息进行结构化信息抽取,获得统一格式的信息。      ▲▲ 四、抽取与web包装器      信息抽取根据处理数据对象的不同,可以分为两类:一是纯文本信息抽取;另一是半结构化文本信息抽取。纯文本信息抽取的处理对象是一段自然语言文本;而半结构化文本信息抽取的处理对象是包含HTML标签或类似标记的

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档