八爪鱼采集器流程步骤高级选项说明.pdfVIP

八爪鱼采集器流程步骤高级选项说明.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八爪鱼·云采集网络爬虫软件 八爪鱼采集器流程步骤高级选项说明 1 、打开网页 该步骤根据设定的网址打开网页, 一般为网页采集流程的第一个步骤, 用来打开指定的网站 或者网页。 如果有多个类似的网址需要分别打开执行同样的采集流程, 则应该放置在循环的 内部,并作为第一个子步骤 1 )页面 URL 页面 URL ,一般可以从网页浏览器地址栏中复制得到,如: / 2 )操作名 自定义操作名 3 )超时 八爪鱼·云采集网络爬虫软件 在网页加载完成前等待的最大时间。 如果网页打开缓慢, 或者长时间无法打开, 则流程最多 等待超时指定的时间, 之后无论网页是否加载完成, 都直接执行下一步骤。 应尽量避免设置 过长的超时时间,因为这会影响采集速度 4 )阻止弹出 用以屏蔽网页弹窗广告, 如果打开的网页偶尔会变成另外一个广告页面, 则可以使用本选项 阻止广告页面弹出 5 )使用循环 配合循环步骤来使用, 用以重复打开多个类似的网页, 然后执行同样的一套流程, 循环打开 网页时,应为作为循环步骤的第一个子步骤。 如果勾选此项,则无需手动设置网页地址, 网页地址会自动显示循环设定的网址列表的当前循环项 6 )滚动页面 个别网页在打开网页后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底 部,才会加载没有显示的数据, 使用此选项在页面加载完成后向下滚动, 滚动方式有向下滚 动一屏和直接滚动到底部两种 7 )清理缓存 在八爪鱼中,如果需要切换账号,可使用清理浏览器缓存,重新设置其他账号 8 )自定义 cookie cookie 指某些网站为了辨别用户身份、 进行 session 跟踪而储存在用户本地终端上的数据 (通常经过加密)。在八爪鱼中,可以通过做一次预登录获取页面 cookie ,通过勾选打开 八爪鱼·云采集网络爬虫软件 网页时使用指定 cookie 获取登陆后的 cookie ,从而记住登录状态。 获取的当前页面 cookie , 可以通过点击 查看 cookie 9 )重试 如果网页没有按照成功打开预期页面,例如显示服务器错误( 500 ),访问频率太快等,或 者跳转到其他正常执行不应该出现的页面, 可以使用本选项进行重试, 但必须配合以下几个 重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试 ① 当前网页的网址 / 文本 /xpath ,包含 / 不包含 如果当前页面网址 / 文本 /xpath 总是出现 / 不出现某个特殊内容,则使用此选项可以判断有 没有打开预期页面,需要重试 ② 最大重试次数 为了避免无限制重复尝试, 请使用本选项限制最大重复尝试的次数, 如果重试到达最大允许 的次数,任然没有成功,则流程将停止重试,继续执行下一步骤 ③ 时间间隔 在两次重试之间等待的时间, 一般情况下, 当打开网页出错时, 立即重试很有可能是同样的 错误, 适当等待则可能成功打开预期网页, 但应该尽量避免设置过长的等待时间, 因为这会 影响采集速度 2 、点击元素 该步骤对网页上指定的元素执行鼠标左键单击动作

文档评论(0)

134547ggg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档