八爪鱼采集器使用必知关键词.docxVIP

下载本文档

21
0
约3.01千字
约 13页
2019-02-14 发布于江苏
举报
版权申诉

八爪鱼采集器使用必知关键词.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

八爪鱼·云采集网络爬虫软件八爪鱼·云采集网络爬虫软件八爪鱼采集器使用必知的关键词 1、积分积分是用来支付八爪鱼增值服务的一种方式，在八爪鱼采集器采集数据后，用来导出数据。免费版导出数据需积分，专业版及以上导出数据无限制。积分可以单独购买，也可以通过签到、完善个人资料、绑定社交账号等多种方式获得。注意：不同的账号类型在使用八爪鱼增值服务时会有不同的收费策略，具体的收费策略和区别在版本说明里面有详细的解释。 2、规则规则是八爪鱼规则配置程序记录人工操作流程、展现在八爪鱼客户端中并能进行导入导出操作的一条程序规则。当一条规则配置好之后，八爪鱼即可按照所配置的规则自动地进行数据采集，代替人工采集。 3、云加速八爪鱼系统采用分布式集群部署的方式，每个集群由数量庞大的云节点组成，单个节点的采集能力相当于一台PC机的采集能力。通过八爪鱼后台的版本资源分配策略，分配到多少个云节点资源就享有几倍的加速，版本高的账户有更高的加速倍数。 4、云优先如果是多用户共享一个云集群的资源，一个集群的规模大小是有上限的，如果同一时间提交云集群任务过多，造成资源拥堵，那么根据用户账号版本的不同，八爪鱼系统会进行默认排序，版本高的，优先级高，将有优先获得资源分配的权益。暂时未分配到资源的任务将进行排队轮候。 5、URL URL指正常网站的网址。单机采集单机采集是指不占用云集群的资源，只能通过八爪鱼客户端所在的PC进行工作，在工作期间，需要电脑和软件都处于运行状态，电源中断或者网路中断都会导致数据采集任务的中断。云采集云采集是指通过使用八爪鱼提供的服务器集群进行工作，该集群是7*24小时的工作状态，在客户端将任务设置完成并提交到云服务执行进行云采集之后，可以关闭软件，关闭电脑进行脱机采集，真正实现无人值守。除此之外，云采集通过云服务器集群的分布式部署方式，多节点同时进行作业，可以提高采集效率，并且可以高效的避开各种网站的IP封锁策略。定时采集定时采集指的是用户在设定好八爪鱼的采集规则后，可设置在云采集集群上定时运行该任务，任务会根据定时设置的时间周期性多次运行。 9、URL循环 URL循环是指设定八爪鱼循环采集一批URL网址里面的数据。 10、自动导出自动导出指的是用户可通过一些设置，实现数据自动导出，支持自动导出到数据库。自动导出到数据库只支持云采集，可以实现边采集边导出，导出的是当前未导出过的数据。 Cookie 1） Cookie诞生：当某个用户打开浏览器发出页面请求时，web服务器只是进行简单相应，然后就关闭与该用户的连接。所以当用户每发起一个打开网页请求到web服务器的时候，无论是否是第一次打开同一个网页，web服务器都会把这个请求当作第一次来对待，那这样的缺陷可想而知，比如每次打开登录页面的时候都需要输入用户名、密码。为了弥补这个缺陷，Cookie应运而生。 2） Cookie概述：Cookie就是服务器暂时存放在你计算机上的一笔资料，好让服务器来辨认你的计算机。当你在浏览网站的时候，web服务器会先送出小小资料放在你的计算机上，cookie会帮你在网站上所打的文字（如用户名、密码）和其他一些操作都记录下来。当下次你再打开同一个网站。web服务器会先看看有没有它上次留下的cookie资料，有的话就会依据cookie的内容来判断使用者，送出特定的网页内容给你。 3） Cookie登录：在八爪鱼中内置了记录cookie的功能，可通过获取登陆后的cookie来记住登陆状态，以达到采集数据的目的。 12、XPATH XPATH：是一种路径查询语言，简单的说就是利用一个路径表达式找到我们需要的数据位置。 XPATH专门用于在XML中沿着路径查找数据。八爪鱼采集器内部有一套针对HTML的XPATH引擎，使得直接用XPATH就能精准的查找定位网页里面的数据。 13、HTML HTML概念 HTML：超文本标记语言，是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。 HTML结构：完整的HTML文件至少包括HTML标签、HEAD标签、TITLE标签和BODY标签，并且这些标签都是成对出现的，开头标签为，结束标签为/，在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。 14、固定元素列表和不固定元素列表固定元素列表，是一种精确定位方式，适用于网页上要采集的元素是固定数目的情况，一条xpath精确定位到一个元素。如图：3条xpath可精确定位到3个a标签。 //DIV[@class=’video-list’]/DIV[1]/A[1]/H3[1] //DIV[@class=’video-list’]/DIV[2]/A[1]/H3[1] //DIV[@clas