- 122
- 0
- 约小于1千字
- 约 7页
- 2018-04-04 发布于广东
- 举报
火车头采集器,教程,学习资料,技术资料,参考文件。
查看此教程建议视图:
因为包含很多图片,其他视图导致图片查看不全。
我们要采集一个页面上面同样格式的多条数据的时候,我们这样针对一条信息设置好规则,勾选下标签循环匹配,就可以把满足这个规则的所有数据采集到如下图:
比如采集这个网站:/wat/controllerServlet.do?queryid=0002001method=doqueryquerysid=g0002showpage=1
我们查看页面源代码,我把源代码复制到txt里面做了些简单的处理,让大家看的更明白如下图:
上图看到船名都是“trtd ”开始“/td”结束,我们建立一个规则分别是以“trtd ”开始和以“/td”结束。
规则设置如下图:
采集结果如下:
左侧标签循环处理那里选了“添加为新记录”,右侧看到了船名都已经采集到了,并且每个船名都是一条独立的信息,
看到上图左侧有个选项“循环不足的记录以第一条记录补全”勾选上这个,如果在循环过程中有的信息没有采集到,就会用
第一条采集到的信息来代替。
加入左侧标签循环处理那里选了“用分隔符链接在上条的记录后” 然后在下面的“分隔符”哪一项设置分隔符,如下图:
测试结果如下:
循环采集到的结果都用我们自己设置的分隔符来隔开做为一条记录。
我们通过页面源代码,知道这个是个表格,那么我们就多说写表格如何采集。如果我们还有继续采集更多信息如下图的“英文船名”,“航次”等等。
您可能关注的文档
- 火车采集器教程-HTTp接口查看运行情况.doc
- 火车采集器教程-Http接口管理采集器运行.doc
- 火车采集器教程-Mongodb数据库保存数据.doc
- 火车采集器教程-Ocr识别.doc
- 火车采集器教程-RSS地址采集功能.doc
- 火车采集器教程-标签纯正则替换功能.doc
- 火车采集器教程-标签间自由组合功能.doc
- 火车采集器教程-从Http头信息中获取数据.doc
- 火车采集器教程-导出记录为Word格式.doc
- 火车采集器教程-多页采集.doc
- 2026年实用版仓储服务租赁合同包含货物保险条款.docx
- 江苏安全技术职业学院《影视作品研究》2023-2024学年第二学期期末试卷.doc
- 2026年实用版电子商务合作合同.docx
- 尚义县2025届数学四下期末联考试题含解析.doc
- 2026年长期技术合作框架合同协议.docx
- 北京市房山区达标名校2025-2026学年初三3月质检数学试题试卷含解析.doc
- 广东松山职业技术学院《大学物理学下》2023-2024学年第一学期期末试卷.doc
- 2026年农产品电商营销协议.docx
- 2026届广东省深圳市坪山区下学期第三次考试数学试题(普通班)试题含解析.doc
- 重庆三峡学院《形体与健美》2024-2025学年第二学期期末试卷.doc
原创力文档

文档评论(0)