火车采集器教程-内容分页采集.docVIP

下载本文档

46
0
约1.33千字
约 7页
2018-04-04 发布于广东
举报

火车采集器教程-内容分页采集.doc

火车头采集器，教程，学习资料，技术资料，参考文件。

查看此教程建议视图：因为包含很多图片，其他视图导致图片查看不全。采集文章的时候，难免遇到文章有分页，本教程讲解下内容分页的采集。在规则的第二步：采集内容规则左下方有个“分页获取规则”选项卡，用来设置分页。如下图：全部列出模式适用于分页地址全部显示出来如下图：上下页上n页下n页适用用分页地址列出一部分如下图我们先说下上下页模式的分页，以采集这个地址/2013/0117/1358391833627.html为例在第一页我们查看分页代码的情况如下：在第二页分页代码的情况如下：在第五页分页代码的情况如下：通过上面我们是否可以得到一个规律：当前页的源代码是“strong当前页码/strong/a”然后紧接着的代码“a href=下一页的地址”就包含了下一页的地址然后以“/a”结束，也就是从页面源代码“strong当前页码/strong/a”开始然后再以“/a”结束，中间就包含了“下一页”的地址，这就是我们说的上下页模式原理就是找到当前页如何获取到下一页地址的源代码格式，然后我们把这个源代码格式填写到采集器里面如下图：左侧空白框填写的是“strong(*)/strong/a”其中当前页的页码我们用(*)代替，右侧的空白框我们写的是“/a”来做为结束，中间的就是下一页地址。 “自动识别”：采集器会在上面的设置的范围内，自动匹配到分页地址。 “手动填写分页地址规则”

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

火车采集器教程-内容分页采集.docVIP