Web信息采集系统设计及实现.docVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息采集系统设计及实现.doc

基于主题的Web信息采集系统的设计与实现 李盛韬,赵章界,余智华 (中国科学院计算技术研究所 软件研究室,北京 100080) 摘 要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。 关键词: 信息采集;信息检索;信息处理;主题 Email: lishengtao@ ; zhaozj@ ; yzh@ 中图分类号:TP391 文献表示码:A 基金资助:中科院计算所领域前沿青年基金资助(资助8 )2000年7月,21亿[1][2],这使得页面的失效率非常地巨大。Selberg和Etzioni在1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[5]。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。 传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。 为此,我们开展了主题Web信息采集技术的研究,并设计实现了“天达”主题Web信息采集系统。全文的组织是这样的:第二章介绍主题Web信息采集的基本问题;第三章给出了“天达”主题Web信息采集系统的结构模型以及相关细节;在第四章里,我们给出了该系统的实现情况;最后,在第五章里展望了主题Web信息采集发展的动向。 2.基于主题的Web信息采集的基本问题 2.1基于主题的Web信息采集的定义 在Web信息采集的大家庭中,有一类非常重要,它就是基于主题的Web信息采集(Focused Crawling),也称为Topic-Specific Crawling,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行采集的行为。 2.2基于主题的Web信息采集的分类 2.2.1广泛主题和具体主题的Web信息采集 按照采集主题的范围和规模,基于主题的Web信息采集可分为广泛主题的Web信息采集和具体主题的Web信息采集。 广泛主题是指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web信息采集也称作领域Web信息采集。一般这类信息采集所需要采集的页面数量较多,为了达到较高的召回率,在进行URL过滤的时候所设定的阈值较低、限制较宽,因此它的页面内容也相对较杂。与之相对应,具体主题涵盖面较窄,意义较明确,采集规模也较小,一般进行URL过滤的时候所设定的阈值较高、限制较严。这类采集一般可直接服务于用户,提供更加灵活、针对性更强的服务。 2.2.2固定主题和可变主题的Web信息采集 按照采集时能否指定主题,基于主题的Web信息采集分为固定主题的Web信息采集和可变主题的Web信息采集。 顾名思义,固定主题的Web信息采集在采集前和采集的过程中都不能进行主题的变更。它一般是针对广泛主题和领域搜索引擎的,不直接服务于用户。可变主题的Web信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体,采集页面的规模也较小,提供给用户的操作方式比较灵活。另外,多个此类信息采集器进行合作,分别采集不同的主题,能够完成一些更高级和复杂的服务。 2.3主题页面在Web上的分布特征 整个Web上的页面主题分布是混杂的,但同一个主题在Web上分布却有一些规律。我们将这些分布规律总结为四个特性:Hub特性、Sibling/Linkage Locality特性、站点主题特性、Tunnel特性。 2.3.1 Hub特性 美国康奈尔大学的教授Jon M. Kleinberg发现Web上存在大量的Hub页面,这种页面不但含有许多outlink链接(指出链接),并且这些链接趋向于相关同一个主题。也就是说,Hub页面是指向相关主题页面的一个中心。另外,他还定义了权威页面(authority)的概念,即其它许多页面都认为相关于这一主题有价值的好页面。好的Hub页面一般指向多个Authority的页面,并且所指向的Authority页面越权威Hub页面的质量也越好;反过来,Hub页面的质量越好,它所指向的每个页面也趋向于越权威。我们把主题在Web上的这一特性称为Hub特性。 2.3.2 Sibling/Linkage Locality特性 在Hub特性的基础上,人们又提出了Sibling/Linkage Locality特性[1]。1).Link

文档评论(0)

wdhtm341 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档