火车采集器教程-列表页分页采集获取功能.docVIP

  • 54
  • 0
  • 约1.12千字
  • 约 5页
  • 2018-04-14 发布于广东
  • 举报

火车采集器教程-列表页分页采集获取功能.doc

火车头采集器,教程,学习资料,技术资料,参考文件。

查看此教程建议视图: 因为包含很多图片,其他视图导致图片查看不全。 对于设置列表分页,下图设置是最常见也是最常用的。 现在教大家另外一个获取分页的办法,就是通过列表页分页采集获取功能来自动获取分页。 使用这个功能,起始页就只需要把首页地址添加进去就可以了如下图: 分页设置是在 “多级网址获取”里的“列表分页获取”如下图: 上图“从该区域中提取列表分页网址” 那里就是找到源代码里面分页开始的地方和结束的地方,中间包含的地址就分页地址。 对于那种分页全部列出来的,设置好这一步就可以了,但是很多情况下分页都不是完全列出来的,中间会有省略号代替如下图: 现在针对全部列出,和不是全部列出这2种情况,做一个都适用的设置,我一直都是用这种方式获取,几乎解决所有的网站。 我们重要的是要找到当前页源代码的特点。我是用/newsgn/zhxw/shizhengxinwen.htm 这个列表页来做说明的。 我们看下第一页分页源代码的情况如下图: 再看下第二页源代码的情况如下图: 然后我们不再一页一页看随便看一页,查看源代码我这里选第五页如下图: 通过红色标注,大家看到规律了没有?当前页都是strong/strong这个代码后面紧接着一个a 就是下一页地址。 也就是说我们是要通过当前页获取下一页,这样一级一级的向下获取,直至把所有分页获取到。 那么放到采集器里面的表示就是从div class=pageN

文档评论(0)

1亿VIP精品文档

相关文档