火车采集器教程-内容分页采集.docVIP

  • 46
  • 0
  • 约1.33千字
  • 约 7页
  • 2018-04-04 发布于广东
  • 举报
火车头采集器,教程,学习资料,技术资料,参考文件。

查看此教程建议视图: 因为包含很多图片,其他视图导致图片查看不全。 采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。 在规则的第二步:采集内容规则左下方有个“分页获取规则”选项卡,用来设置分页。如下图: 全部列出模式适用于分页地址全部显示出来如下图: 上下页上n页下n页适用用分页地址列出一部分如下图 我们先说下上下页模式的分页,以采集这个地址/2013/0117/1358391833627.html为例 在第一页我们查看分页代码的情况如下: 在第二页分页代码的情况如下: 在第五页分页代码的情况如下: 通过上面我们是否可以得到一个规律:当前页的源代码是“strong当前页码/strong/a”然后紧接着的代码“a href=下一页的地址”就包含了下一页的地址 然后以“/a”结束,也就是从页面源代码“strong当前页码/strong/a”开始然后再以“/a”结束,中间就包含了“下一页”的地址,这就是我们说的上下页模式 原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图: 左侧空白框填写的是“strong(*)/strong/a”其中当前页的页码我们用(*)代替,右侧的空白框我们写的是“/a”来做为结束,中间的就是下一页地址。 “自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。 “手动填写分页地址规则”

文档评论(0)

1亿VIP精品文档

相关文档