Web信息采集系统的设计与实现.docVIP

  • 5
  • 0
  • 约1.12万字
  • 约 9页
  • 2017-02-09 发布于重庆
  • 举报
Web信息采集系统的设计与实现

基于主题的Web信息采集系统的设计与实现 李盛韬,赵章界,余智华 (中国科学院计算技术研究所 软件研究室,北京 100080) 摘 要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。 关键词: 信息采集;信息检索;信息处理;主题 Email: lishengtao@ ; zhaozj@ ; yzh@ 中图分类号:TP391 文献表示码:A 基金资助:中科院计算所领域前沿青年基金资助(资助8 )2000年7月,21亿[1][2],这使得页面的失效率非常地巨大。Selberg和Etzioni在1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[5]。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。 传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。 为此,我们开展了主题Web信息采集技

文档评论(0)

1亿VIP精品文档

相关文档