基于Heritrix 的面向特定主题的聚焦爬虫研究.pdfVIP

  • 6
  • 0
  • 约 4页
  • 2017-08-16 发布于北京
  • 举报

基于Heritrix 的面向特定主题的聚焦爬虫研究.pdf

第22卷 第2期 计 算机 技 术 与 发 展 V01.22 No.2 2012年2月 COMPUrITER TECHNOLOCY AND DEVELOPMENT Feb. 2012 基于 Heritrix的面向特定主题 的聚焦爬虫研究 朱 敏 ,罗省贤 (成都理工大学 信息科学与技术学院,四川 成都 610059) 摘 要:通过分析 Hefitirx开源爬虫的组件结构,针对Heritrix开源爬虫项 目存在的问题,项 目没计 了特定的抓取逻辑和定 向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到 了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析 ,并进行网页内容抓取,采用 HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下 一 步研究工作做好准备。 关键词:聚焦爬虫;Heritr

文档评论(0)

1亿VIP精品文档

相关文档