《大数据基础》案例知识链接2-2:八爪鱼采集器使用方法.pdf

《大数据基础》案例知识链接2-2:八爪鱼采集器使用方法.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

八爪鱼采集器使用方法

一、八爪鱼采集原理

(一)模拟人的行为,通过内置Chrome浏览器浏览网页数据。

所以采集数据的第一步永远是找到目标网址并输入。这跟通过普通浏览器访问网页完全

一样。在普通浏览器中需要点击链接进入详情、点击翻页按钮查看更多数据,在八爪鱼中也

需如此操作。

(二)根据网页特性和采集需求,设计采集流程,八爪鱼根据流程全自动采集数据。

平常我们浏览网页的动作不会被记录下来。例如:这次在京东上输入关键词【手机】查

询相关商品数据,下次还需要输。

在用八爪鱼采集数据的时候,我们就需要根据网页特性和采集需求,设计采集流程,将

我们的采集需求记录下来。之后八爪鱼就能根据设计好的采集流程,全自动的采集数据。

例如:需采集页面上的所有商品列表,我们就做一个【循环-提取数据】的步骤。采集时

有很多页,需要翻页,我们就做一个【循环翻页】的步骤。

二、模板采集

八爪鱼采集器内置了大量的采集模板,模板中已经设置好采集任务和采集内容,启用模

板就能快速完成数据采集。目前已有200+采集模板,涵盖主流网站的采集场景。模板数还

在不断增加。使用模板采集数据时,只需输入几个参数(网址、关键词、页数等),就能在

几分钟内快速获取到目标网站数据。

(一)如何找到所需的【采集模板】

如图1所示。

1.首页【输入框】

输入目标网站名称,八爪鱼自动寻找相关的采集模板。将鼠标移到需要的模板上并单击,

进入模板详情页面。注意,请确保输入的网站名称正确,否则可能无法查找到相关模板。

2.首页【热门采集模板】

点击【热门采集模板】中的模板,或者点击【更多】,进入采集模板展示页面。可通

过【模板类型】、【搜索模板】多种方法,寻找目标模板。

图1模板采集

3.没有所需的模板

如果没有找到想要的模板,请进入模板展示页面后,点击右上角【我想要新模板】,提

交新模板制作需求,如图2所示。官方会评估需求,排期制作新的模板。

图2新模板制作

(二)【采集模板】如何使用

Step1:进入【模板详情页】后,仔细阅读【模板介绍】、【采集字段预览】、【采集参数预

览】、【示例数据】,确认此模板采的数据符合需求。如图3所示

图3模板详情页

Step2:确定模板符合需求以后,点击【立即使用】,自行【配置参数】。常见的参数有关

键词、翻页次数、URL等。

Step3:然后点击【保存并启动】,选择启动【本地采集】。八爪鱼自动启动1个采集任务

并采集数据。

Step4:数据采集完成以后,可以需要的格式导出。

三、自定义配置采集数据

【自定义配置采集数据】有2种方式:使用【智能识别】和自己动手配置采集流程。

(一)使用【智能识别】

【智能识别】,只需输入网址,自动智能识别网页数据。支持自动识别列表型网页数据、

滚动和翻页。

Step1:在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开

始智能识别。

特别说明:

打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】。

【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。

【不再智能识别】:关闭自动智能识别,点击【自动识别网页】手动开启。也可在全局

设置中,再次默认开启【智能识别】。

Step2:智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后

智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。

Step3:同时,可自动识别出网页的滚动和翻页。

Step4:自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,方便用

户编辑修改。如图4所示。

图4智能识别采集界面

Step5:然后,点击右上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采

集数据。

Step6:采集完成后,以所需的方式导出数据即可。

(二)自己动手配置采集流程

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档