- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
八爪鱼采集器使用方法
一、八爪鱼采集原理
(一)模拟人的行为,通过内置Chrome浏览器浏览网页数据。
所以采集数据的第一步永远是找到目标网址并输入。这跟通过普通浏览器访问网页完全
一样。在普通浏览器中需要点击链接进入详情、点击翻页按钮查看更多数据,在八爪鱼中也
需如此操作。
(二)根据网页特性和采集需求,设计采集流程,八爪鱼根据流程全自动采集数据。
平常我们浏览网页的动作不会被记录下来。例如:这次在京东上输入关键词【手机】查
询相关商品数据,下次还需要输。
在用八爪鱼采集数据的时候,我们就需要根据网页特性和采集需求,设计采集流程,将
我们的采集需求记录下来。之后八爪鱼就能根据设计好的采集流程,全自动的采集数据。
例如:需采集页面上的所有商品列表,我们就做一个【循环-提取数据】的步骤。采集时
有很多页,需要翻页,我们就做一个【循环翻页】的步骤。
二、模板采集
八爪鱼采集器内置了大量的采集模板,模板中已经设置好采集任务和采集内容,启用模
板就能快速完成数据采集。目前已有200+采集模板,涵盖主流网站的采集场景。模板数还
在不断增加。使用模板采集数据时,只需输入几个参数(网址、关键词、页数等),就能在
几分钟内快速获取到目标网站数据。
(一)如何找到所需的【采集模板】
如图1所示。
1.首页【输入框】
输入目标网站名称,八爪鱼自动寻找相关的采集模板。将鼠标移到需要的模板上并单击,
进入模板详情页面。注意,请确保输入的网站名称正确,否则可能无法查找到相关模板。
2.首页【热门采集模板】
点击【热门采集模板】中的模板,或者点击【更多】,进入采集模板展示页面。可通
过【模板类型】、【搜索模板】多种方法,寻找目标模板。
图1模板采集
3.没有所需的模板
如果没有找到想要的模板,请进入模板展示页面后,点击右上角【我想要新模板】,提
交新模板制作需求,如图2所示。官方会评估需求,排期制作新的模板。
图2新模板制作
(二)【采集模板】如何使用
Step1:进入【模板详情页】后,仔细阅读【模板介绍】、【采集字段预览】、【采集参数预
览】、【示例数据】,确认此模板采的数据符合需求。如图3所示
图3模板详情页
Step2:确定模板符合需求以后,点击【立即使用】,自行【配置参数】。常见的参数有关
键词、翻页次数、URL等。
Step3:然后点击【保存并启动】,选择启动【本地采集】。八爪鱼自动启动1个采集任务
并采集数据。
Step4:数据采集完成以后,可以需要的格式导出。
三、自定义配置采集数据
【自定义配置采集数据】有2种方式:使用【智能识别】和自己动手配置采集流程。
(一)使用【智能识别】
【智能识别】,只需输入网址,自动智能识别网页数据。支持自动识别列表型网页数据、
滚动和翻页。
Step1:在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开
始智能识别。
特别说明:
打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】。
【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。
【不再智能识别】:关闭自动智能识别,点击【自动识别网页】手动开启。也可在全局
设置中,再次默认开启【智能识别】。
Step2:智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后
智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。
Step3:同时,可自动识别出网页的滚动和翻页。
Step4:自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,方便用
户编辑修改。如图4所示。
图4智能识别采集界面
Step5:然后,点击右上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采
集数据。
Step6:采集完成后,以所需的方式导出数据即可。
(二)自己动手配置采集流程
您可能关注的文档
- 《大数据基础》 课件 项目二 大数据采集与预处理.pptx
- 《大数据基础》 课件 项目六 数据安全与隐私防护.pptx
- 《大数据基础》 课件 项目三 数据存储与管理.pptx
- 《大数据基础》 课件 项目四 数据分析与挖掘.pptx
- 《大数据基础》 课件 项目五 数据可视化.pptx
- 《大数据基础》 课件 项目一 走进大数据.pptx
- 《大数据基础》案例知识链接3-2:华为数据存储与智能管理.pdf
- 《大数据基础》案例知识链接6-4:我国数据安全产业现状、发展驱动力与五大趋势.pdf
- 《大数据基础》案例知识链接6-1:维基解密与棱镜计划.pdf
- 《大数据基础》案例知识链接6-3:大数据杀熟.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)