- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
八爪鱼 让数据触手可及目录产品介绍学习渠道八爪鱼采集原理界面简介私有云管理AJAX与新标签介绍实战演练产品介绍八爪鱼,深圳视界信息技术有限公司(国家高新企业)旗下产品,强大且易用的互联网数据采集平台。?八爪鱼可简单快速地将网页数据转化为结构化数据,存储于EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案,实现精准、高效、大规模的数据采集。其智能模式可实现输入网址全自动化导出数据,是国内首个大数据一键采集平台。 数据库EXCELAPI其他网页数据八爪鱼采集器产品介绍自定义模式简单规则设置,灵活应对各种复杂网页结构强大的功能+简便的操作,我们提供四种操作模式,满足不同用户的个性化应用需求。向导模式内置向导流程,点击执行轻松解决采集难题智能模式智能识别算法,一键即可提取结构化数据简易模式内置主流网站采集模板,输入参数即可获取数据八爪鱼的规则配置流程模拟人的思维模式,贴合用户的操作习惯,任何人通过官网教程的学习都可以在30分钟内轻松掌握全网数据采集的本领。学习渠道八爪鱼官网八爪鱼采集原理一、打开网页: 打开网页,一般指我们所要采集数据的网站,正如平时我们浏览该网站的数据信息时需要输入URL一样 二、循环翻页: 循环翻页,指一般我们需要快速收集整合时,是需要做到翻页循环的,循环翻页的本质是一个单个元素的循环三、提取数据: 正式的采集步骤四、点击元素: 循环本身是不会有任何执行操作的,如果要实现循环翻页,则需要一个点击元素来和循环产生联动八爪鱼采集原理原理: Ⅰ:模拟人的思维去浏览网页 Ⅱ:通过设计工作流程完成自动化数据采集 八爪鱼采集器是一款模拟人的思维去访问网页文档的互联网数据采集器。通过设计工作流程,可以实现采集的程序自动化,以达到快速的对网页数据进行收集整合,完成用户数据采集的目的。界面简介-八爪鱼界面功能介绍界面简介-八爪鱼任务界面介绍界面简介-智能模式介绍界面简介-网页简易模式介绍界面简介-向导模式介绍界面简介-自定义模式介绍私有云管理及优化-任务管理及优化私有云管理及优化-云节点管理流程步骤一、输入网址: 此处用于输入要采集网页URL二、设计工作流程: 此处用于设计任务规则的自动化流程步骤,例如:你要让任务规则打开哪一个网页,做哪些步骤等都在设计工作流程中完成,设计工作流程是一个任务规则的核心步骤三、任务启动选择: 如果规则编写正确,此处你就可以启动一个任务规则进行单机采集或云采集了,并且可以设置定时计划流程步骤流程设计步骤: 在八爪鱼采集器中,一共有11个流程设计操作,其中分为常用步骤和进阶步骤,划分为以下:常用步骤: 常用步骤本身是应用较多的流程设计操作,通常来说,要实现一个网页的数据快速整理与采集,这些步骤是必不可少的,基本步骤如下: 1)打开网页 2)点击元素 3)循环 4)提取数据进阶步骤: 进阶步骤,是指除基本步骤外,我们需要通过下列操作来辅助完成我们的数据采集,进阶步骤如下: 1)输入文字 2)识别验证码 3)切换下拉选项 4)判断条件 5)移动鼠标到元素上 6)结束循环 7)结束流程 实战演练新浪财经/mkt/#new_fdc?qq-pf-to=pcqq.c2c全国公共资源交易平台/ds/deal/dealList.jsp结语: 实践出真知,八爪鱼让数据触手可及Ajax加载与新标签页 Ajax即通过在后台与服务器进行少量数据交换,意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。 最简单的方式是看在八爪鱼浏览器里点击的时候网页有没有改变加载状态 这种表示网页正在加载 这种表示网页没有加载或者已加载完成当网页状态有发生改变的时候就不需要设置ajax,因为八爪鱼会自动根据网页的状态来判断是否可以进行下一步操作而当网页状态没有发生改变的时候就需要设置ajax,因为八爪鱼没有可判断的依据,运行本地采集时八爪鱼就会按照一个默认时长120秒后再执行下一个操作,这时大部分新用户会发现八爪鱼不动了一直不提取数据,所以这时需要设置ajax告诉八爪鱼,需要采集的网页内容已经出来了,可以进行下一步操作了,这个ajax时间就是要观察从点击到需要采集的数据出现需要多久,则设置多久即可。如果不设置采集时出现的现象就会一直等待在这里不提取数据,感觉采集速度会很慢,设置了之后会加快速度。 前面说了一般网页设置ajax的目的是局部刷新,后台与服务器进行少量数据交换,而新标签打开的意思是重新打开加载整个网页,一般来说设置了ajax是不需要再开新标签的,请在设置ajax的时候把勾选的新标签取消掉。The End谢谢大家
您可能关注的文档
最近下载
- 生理性房室传导阻滞_刘仁光.pdf VIP
- 农村自来水厂建设工程分部分项施工方案和技术措施.pdf VIP
- (人教A版数学选择性必修一)2025年秋季学期讲义第12讲第一章空间向量与立体几何测评卷(基础卷)(学生版+教师版).docx VIP
- 《反恐怖防范管理规范 第2部分:医院》(DB22 T 3687.2-2025).pdf VIP
- 计算机视觉教程 作者 章毓晋 CCV04.ppt VIP
- 化工原理第四版谭天恩习题答案解析.pdf VIP
- 2025年高考物理(山东卷)试卷评析及2026高考备考策略 课件.pptx
- 人教版新版一年级语文上册课程纲要.pdf VIP
- 2025年广州地铁集团公司经营方针和战略.docx
- 2025年职业技能无人机驾驶员-民用无人机驾驶员理论知识参考题库含答案解析(5卷).docx VIP
文档评论(0)