利用 Heritrix 构建特定站点爬虫.pdfVIP

  • 3
  • 0
  • 约1.43万字
  • 约 13页
  • 2017-08-09 发布于河北
  • 举报
利用 Heritrix 构建特定站点爬虫.pdf

2011-3-10 利用 Heritrix 构建特定站点爬虫 中文 登录 (或注册) 术主题 软件下载 社区 技术讲座 利用 Heritrix 构建特定站点爬虫 郭 艳芬, IBM 实习生, IBM 简介: Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好 的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行,最后以抓取北京林业大学网 站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面。 发布日期: 2010 年 11 月 29 日 级别: 初级 访问情况 3885 浏览 建议: 1 (查看或添加评论) 平均分 (共9 个评分 ) 本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定

文档评论(0)

1亿VIP精品文档

相关文档