网站大量收购独家精品文档,联系QQ:2885784924

垂直搜索引擎中eb信息抽取技术研究.pdf

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垂直搜索引擎中eb信息抽取技术研究

摘 要 目前Web上的资源日益增多,为更有效地利用这些资源,近年 来产生了垂直搜索引擎。它是面向专业或主题的搜索引擎,只采集与 专业或主题相关的信息,这样就需要从Web页面等资源中抽取出特 定的主题信息,本文的研究重点正是从Web页面中抽取与特定主题 相关的信息。 针对目前Web信息抽取方法实现复杂等问题,设计了一种基于 标签序列的Web页面主题信息抽取方法。该方法通过设定的策略和 样本建立抽取规则,构建规则库,借助规则库实现对页面主题信息抽 取,这样降低了处理Web页面过程的复杂性,并减少了页面处理时 间。通过应用本方法抽取部分网站的手机参数页面,表明该方法召回 率和准确率都比较高。 当需要抽取的Web页面结构发生变化而出现主题的新属性时, 目前已有的方法建立的分装器并不能随着这种变化准确地发现主题 的新属性。针对该问题,提出了一种基于可信度的Web页面主题新 属性发现方法,通过对待抽取属性和已抽取属性的特点进行分析,引 入可信度理论,通过一系列规则和证据,量化待抽取属性需要抽取的 可信度,以判断待抽取属性是否为主题的新属性。并将其应用到部分 网站页面手机参数主题属性发现中,实验证明该方法能够较为准确发 现页面中主题的新属性。 最后设计了一种垂直搜索引擎原型系统,主要完成了专业网络蜘 蛛模块的详细设计,它综合了本文提出的Web页面主题信息抽取方 法和Web页面主题新属性发现方法,以实现对页面主题信息的采集。 关键词Web信息抽取,垂直搜索引擎,主题信息,新属性 ABSTRACT al InformationontheWebincreases ofmethodse daybyday,kinds tomake of vertical use theinformation.Thesearch proposed engine solvesthe or search problempartly.It’Sprofessionaltopic—oriented or informationandit engine,onlycollectingprofessionaltopic—related extracts informationfromtheWeb.Thisisfocusedon specific paper informationfromtheWeb extractingtopic-related pages. At ofWebinformationextractionis present,theimplementation Web methodon complex,a extractionbased pagesTopic-Information tag has inthe methodsetsa the sequencedesigned paper.The strategy,with

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档