- 46
- 0
- 约1.33千字
- 约 7页
- 2018-04-04 发布于广东
- 举报
火车头采集器,教程,学习资料,技术资料,参考文件。
查看此教程建议视图:
因为包含很多图片,其他视图导致图片查看不全。
采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。
在规则的第二步:采集内容规则左下方有个“分页获取规则”选项卡,用来设置分页。如下图:
全部列出模式适用于分页地址全部显示出来如下图:
上下页上n页下n页适用用分页地址列出一部分如下图
我们先说下上下页模式的分页,以采集这个地址/2013/0117/1358391833627.html为例
在第一页我们查看分页代码的情况如下:
在第二页分页代码的情况如下:
在第五页分页代码的情况如下:
通过上面我们是否可以得到一个规律:当前页的源代码是“strong当前页码/strong/a”然后紧接着的代码“a href=下一页的地址”就包含了下一页的地址
然后以“/a”结束,也就是从页面源代码“strong当前页码/strong/a”开始然后再以“/a”结束,中间就包含了“下一页”的地址,这就是我们说的上下页模式
原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图:
左侧空白框填写的是“strong(*)/strong/a”其中当前页的页码我们用(*)代替,右侧的空白框我们写的是“/a”来做为结束,中间的就是下一页地址。
“自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。
“手动填写分页地址规则”
原创力文档

文档评论(0)