- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八爪鱼 让数据触手可及;八爪鱼采集器;一、八爪鱼简介
二、采集器组成
三、简单示例
四、基本介绍
五、采集实例;浏览器;八爪鱼; 八爪鱼采集器,是一款通过模拟人去访问网页文档的互联网数据采集器,通过设计流程操作,可以实现采集自动化,以达到快速的对网页数据进行收集整合,完成用户数据采集的目的。
原理:
1.模拟人去浏览网页
2.通过设计流程操作完成采集自动化;
通常,我们将一个采集任务称为一个规则。规则是八爪鱼采集器的核心组成部分,我们将八爪鱼的组成按规则进行划分,可以分为以下几种:
一、任务列表:
任务列表,是指八爪鱼采集器中编辑的任务,编辑好的任务可以直接从等待状态进行执行状态
二、任务规则:
任务规则,就是指根据特定的网页,按人用浏览器去访问网页的过程制定好的自动化任务程序,一般来说,一个类型相似的网站对应一个任务规则
三、任务状态:
1)任务生命周期:可执行状态、等待状态、运行中状态、已完成状态、已停止状态
2)运行中状态:1)本地采集状态、云采集状态
;一、打开网页:
打开网页,一般指我们所要采集数据的网站,正如平时我们浏览该网站的数据信息时需要输入URL一样
二、循环翻页:
循环翻页,指一般我们需要快速收集整合时,是需要做到翻页循环的,循环翻页的本质是一个单个元素的循环
三、提取数据
正式的采集步骤
四、点击元素
循环本身是不会有任何执行操作的,如果要实现循环翻页,则需要一个点击元素来和循环产生联动
;一、设置基本信息:
此处用于填写规则名称与规则备注
二、设计工作流程:
此处用于设计任务规则的自动化流程步骤,例如:你要让该任务打开哪一个网页,做哪些步骤等都在设计工作流程中完成,设计工作流程是一个任务规则的核心步骤
三、设置执行计划:
此处你可以设置任务规则的相关选项,例如:禁止浏览器加载图片、云采集不拆分任务、启动增量采集等
四、任务启动选择:
如果规则编写正确,此处你就可以启动一个任务规则的生命周期了,此时如果编辑正确,任务应该处于可执行状态
;流程设计步骤:
在八爪鱼采集器中,一共有11个流程设计操作,其中分为基本步骤和进阶步骤,划分为以下:
基本步骤:
基本步骤本身是应用较多的流程设计操作,通常来说,要实现一个网页的数据快 速整理与采集,这些步骤是必不可少的,基本步骤如下:
1)打开网页
2)点击元素
3)循环
4)提取数据
进阶步骤:
进阶步骤,是指除基本步骤外,我们需要通过下列操作来辅助完成我们的数据采集,例如:有时候我们采集的数据需要先输入文本才能进行采集,进阶步骤如下:
1)输入文字
2)识别验证码
3)切换下拉选项
4)判断条件
5)移动鼠标到元素上
6)结束循环
7)结束流程
; 在八爪鱼中,流程操作由基本信息与高级选项两部分组成
一、基本信息:
基本信息一般会将该操作流程的基本信息显示出来,例如:打开网页会显示你打开网页的URL,点击元素会显示你点击的元素文本等
二、高级选项:
高级选项,可以设置一些额外的选项设置,以便辅助规则正确有效执行,例如:执行前等待、元素在iframe里等
;;The End
文档评论(0)