- 54
- 0
- 约1.12千字
- 约 5页
- 2018-04-14 发布于广东
- 举报
火车头采集器,教程,学习资料,技术资料,参考文件。
查看此教程建议视图:
因为包含很多图片,其他视图导致图片查看不全。
对于设置列表分页,下图设置是最常见也是最常用的。
现在教大家另外一个获取分页的办法,就是通过列表页分页采集获取功能来自动获取分页。
使用这个功能,起始页就只需要把首页地址添加进去就可以了如下图:
分页设置是在 “多级网址获取”里的“列表分页获取”如下图:
上图“从该区域中提取列表分页网址” 那里就是找到源代码里面分页开始的地方和结束的地方,中间包含的地址就分页地址。
对于那种分页全部列出来的,设置好这一步就可以了,但是很多情况下分页都不是完全列出来的,中间会有省略号代替如下图:
现在针对全部列出,和不是全部列出这2种情况,做一个都适用的设置,我一直都是用这种方式获取,几乎解决所有的网站。
我们重要的是要找到当前页源代码的特点。我是用/newsgn/zhxw/shizhengxinwen.htm 这个列表页来做说明的。
我们看下第一页分页源代码的情况如下图:
再看下第二页源代码的情况如下图:
然后我们不再一页一页看随便看一页,查看源代码我这里选第五页如下图:
通过红色标注,大家看到规律了没有?当前页都是strong/strong这个代码后面紧接着一个a 就是下一页地址。
也就是说我们是要通过当前页获取下一页,这样一级一级的向下获取,直至把所有分页获取到。
那么放到采集器里面的表示就是从div class=pageN
您可能关注的文档
- 火车采集器教程-HTTp接口查看运行情况.doc
- 火车采集器教程-Http接口管理采集器运行.doc
- 火车采集器教程-Mongodb数据库保存数据.doc
- 火车采集器教程-Ocr识别.doc
- 火车采集器教程-RSS地址采集功能.doc
- 火车采集器教程-标签纯正则替换功能.doc
- 火车采集器教程-标签间自由组合功能.doc
- 火车采集器教程-标签循环采集.doc
- 火车采集器教程-从Http头信息中获取数据.doc
- 火车采集器教程-导出记录为Word格式.doc
- ANEX BULLETIN 185B2 技术手册说明书.pdf
- ETA6098 电池充电器 ETA6098 datasheet说明书用户手册.pdf
- CYPHEN 电源管理芯片 688508 投资价值分析报告.pdf
- Chipown 技术手册 AP2960 Rev.1.0 技术手册.pdf
- Chipown 半导体能源赛道 电源管理芯片 技术手册.pdf
- Blonder Tongue 用户手册 BIDA 55A-30P 5800P53 5800-53 5800-54 5800P53 5800P54 5800-73 5800-74 5800-83 5800-84 5800-13 5800-55 5800-54 5800-74 5800-84 5800P83 5800P84说明书.pdf
- Blonder Tongue Blonder Tongue Laboratories, Inc. User Manual NXG Platform Base User Manual说明书用户手册.pdf
- Oxford Instruments Plasma Technology 用户手册 PlasmaPro 100 Cobra说明书.pdf
- Galaxy Microelectronics Company Introduction Brief Introduction Technical Manual说明书用户手册.pdf
- 北京阿尔泰科技发展有限公司 硬件使用说明书 PCI2006数据采集卡 使用说明书.pdf
最近下载
- 山东高速集团《高速公路施工标准化技术指南》(第六分册-房建工程).pdf VIP
- 工程地质勘察资料归档与档案管理手册.docx VIP
- 《包装的学问》公开课(1).ppt VIP
- 党建知识竞赛试题附答案.doc VIP
- 国开电大本科《理工英语4》一平台机考阅读理解判断题题库(2026珍藏版).doc VIP
- 【02-暑假预习】专题03 Unit 3 Fit for life (选择必修二) (知识全梳理&考点精准练) (教师版)-2025年新高二英语暑假衔接讲练 (译林版).pdf VIP
- 国开电大本科《理工英语4》一平台机考阅读理解选择题题库(2026珍藏版).doc VIP
- 北美非常规油气压裂技术进展及发展方向.pdf VIP
- 党建知识考试试题附答案.docx VIP
- 2016-2022年中国外科手术量调研分析.xlsx VIP
原创力文档

文档评论(0)