八爪鱼采集器使用入门教程解析.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八爪鱼 让数据触手可及;八爪鱼采集器;一、八爪鱼简介 二、采集器组成 三、简单示例 四、基本介绍 五、采集实例;浏览器;八爪鱼; 八爪鱼采集器,是一款通过模拟人去访问网页文档的互联网数据采集器,通过设计流程操作,可以实现采集自动化,以达到快速的对网页数据进行收集整合,完成用户数据采集的目的。 原理: 1.模拟人去浏览网页 2.通过设计流程操作完成采集自动化; 通常,我们将一个采集任务称为一个规则。规则是八爪鱼采集器的核心组成部分,我们将八爪鱼的组成按规则进行划分,可以分为以下几种: 一、任务列表: 任务列表,是指八爪鱼采集器中编辑的任务,编辑好的任务可以直接从等待状态进行执行状态 二、任务规则: 任务规则,就是指根据特定的网页,按人用浏览器去访问网页的过程制定好的自动化任务程序,一般来说,一个类型相似的网站对应一个任务规则 三、任务状态: 1)任务生命周期:可执行状态、等待状态、运行中状态、已完成状态、已停止状态 2)运行中状态:1)本地采集状态、云采集状态 ;一、打开网页: 打开网页,一般指我们所要采集数据的网站,正如平时我们浏览该网站的数据信息时需要输入URL一样 二、循环翻页: 循环翻页,指一般我们需要快速收集整合时,是需要做到翻页循环的,循环翻页的本质是一个单个元素的循环 三、提取数据 正式的采集步骤 四、点击元素 循环本身是不会有任何执行操作的,如果要实现循环翻页,则需要一个点击元素来和循环产生联动 ;一、设置基本信息: 此处用于填写规则名称与规则备注 二、设计工作流程: 此处用于设计任务规则的自动化流程步骤,例如:你要让该任务打开哪一个网页,做哪些步骤等都在设计工作流程中完成,设计工作流程是一个任务规则的核心步骤 三、设置执行计划: 此处你可以设置任务规则的相关选项,例如:禁止浏览器加载图片、云采集不拆分任务、启动增量采集等 四、任务启动选择: 如果规则编写正确,此处你就可以启动一个任务规则的生命周期了,此时如果编辑正确,任务应该处于可执行状态 ;流程设计步骤: 在八爪鱼采集器中,一共有11个流程设计操作,其中分为基本步骤和进阶步骤,划分为以下: 基本步骤: 基本步骤本身是应用较多的流程设计操作,通常来说,要实现一个网页的数据快 速整理与采集,这些步骤是必不可少的,基本步骤如下: 1)打开网页 2)点击元素 3)循环 4)提取数据 进阶步骤: 进阶步骤,是指除基本步骤外,我们需要通过下列操作来辅助完成我们的数据采集,例如:有时候我们采集的数据需要先输入文本才能进行采集,进阶步骤如下: 1)输入文字 2)识别验证码 3)切换下拉选项 4)判断条件 5)移动鼠标到元素上 6)结束循环 7)结束流程 ; 在八爪鱼中,流程操作由基本信息与高级选项两部分组成 一、基本信息: 基本信息一般会将该操作流程的基本信息显示出来,例如:打开网页会显示你打开网页的URL,点击元素会显示你点击的元素文本等 二、高级选项: 高级选项,可以设置一些额外的选项设置,以便辅助规则正确有效执行,例如:执行前等待、元素在iframe里等 ;;The End

文档评论(0)

187****5045 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档