- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络矿工复杂数据采集教程8
网络矿工复杂数据采集教程(图文版)
复杂数据并不一定是采集数据有多难,数据本身可能会很容易采集,但想成批的将数据采集、并按照网站的数据关系组织输出,可能会有很大的难度。或者根本就无法实现这样的采集,或者说采集下来的只是一些没有关系的零散数据,不具备使用价值。
当前很多网站在防采方面都做了限制,其中将数据打散,分布到各个网页中,然后通过url请求并将数据重新组织起来进行展示,这也是一种防采限制,数据分散了,对于采集软件如何识别这种数据关系将是很大的考验,如果识别不了这种数据对应关系,那么采集下来的数据就是一堆无意义的数据。
网络矿工在这方面有突出的优势,通过导航和多页的操作,可以将这种复杂的数据关系在采集的过程中根据网站的规则自动关联起来进行输出。我们先以一个比较简单的数据采集为例,后续我们会将更加复杂的数据对应关系的采集,当前先通过这个例子让大家熟悉网络矿工在这方面的采集应用。
今天的讲解会比较复杂一些,请先熟悉网络矿工的基本操作及数据采集的基础概念,再阅读本文。有关网络矿工的基本使用,可参见网络矿工的基本使用图文教程,在此不再进行过多讲解。
我们需要采集的网站为:/BuildList.pub,这是一个导航页(列表页),
点击每一个楼盘的名称,可以打开楼盘的详细页,如:/BuildInfo.pub?blid=101903,我们将需要采集的数据在下图中标明:
同时在此页面,点击“房屋明细”,打开此楼盘房屋明细表,并采集明细表数据,如下:
通过上面的介绍,这个数据采集貌似不复杂,实际做两层导航即可实现。通过列表页导航进行楼盘信息页,再通过楼盘详细页导航进行房屋明细页,但如果我们继续分析,就远不是这样就可以实现的,下面我们进行采集分析讲解。
楼盘的导航页,这个页面直接导航即可;并不复杂;
再看楼盘的详细页,/BuildInfo.pub?blid=101903,这个页面中有一个iframe,在iframe中显示楼盘的详细信息,iframe请求的网址是/ifrm_BuildBasic.pub?blid=101903,这个页面是楼盘真正的详细页面,对此,通常的做法是还可以再做一层导航进行采集,但我们还要采集楼盘的房屋明细,所以,在此我们不做导航,而是做多页处理;
再看楼盘的房屋明细,楼盘的房屋明细是一个iframe请求了房屋的明细,通过嗅探器我们可以找到此地址为:/ifrm_HouseList.pub?blid=101903,这个页面显示了房屋的明细列表,也就是我们需要采集的数据;
小结:通过楼盘的详细页,实际是做了两次导航操作,两次平级的导航,第一次请求楼盘的详细信息,第二次请求楼盘房屋的明细,而且是属于1*N的关系,一个楼盘对应多个房屋信息,针对此种需求,我们无法再用导航来实现,所以,我们采用多页的形式进行配置;
下面我们进行此采集规则的配置,新建一个采集任务,首先配置采集网址,采集网址为:/BuildList.pub,我们做一层导航,进入楼盘详细页的主页面,/BuildInfo.pub?blid=101903,然后在此进行多页采集的配置,多页采集为两个页面,第一个为楼盘详细页,第二个为楼盘房屋页,因为是一对多的关系,所有首先配置楼盘详细页,再配置楼盘房屋页,如下
点击“确定”退出,下一步我们配置采集数据规则,我们需要根据配置的多页进行相应规则的配置,
楼盘名称所属采集页;
预(销)售许可证、开发商、行政区、区位属于第一个多页,楼盘详细页;
房屋代码、幢号、单元号、室号、用途、户型、建筑面积属于第二个多页,楼盘房屋页;
配置如下:
配置完成后,测试一下:
可以看到,系统会自动将数据进行合并输出,而且是按照我们需要的形式进行数据,没有问题。
保存退出,这个采集任务讲解告一段落。
从我们今天讲解的复杂关系数据采集的角度而言,我们的讲解已经结束,但从实际的角度讲,这个采集规则,还没有真正配置完成,因为楼盘房屋信息页存在翻页的情况,我们需要逐一翻页将所有的房屋信息采集下来,这样才能满足我们的实际需求。
多页的配置不存在翻页的处理,那该如何进行?这样我们就又回到了最初所讲,通过导航进行关系处理,但同一个页面要进行两次平级导航,那该如何进行呢?
在此我们简单讲解一下,请有兴趣的朋友自行配置,我们还是进行多层导航,进行3层导航,第一层,从楼盘列表页导航进行楼盘详细页的主页,第二层,从楼盘详细页的主页进行楼盘详细页(就是获取iframe的地址),第三层导航从楼盘的详细页进行楼盘房屋信息页,第三层导航对于网站而言是不存在的,是我们虚构出来为了处理数据一对多关系的,网址构建可以通过网络矿工提供的自定义进行处理,在第三层导航进行自动翻页处理,实现房屋信息页的翻页数据采集,采集数据规则一样,但所属页面就不是多页了,而是导航页,进行跨层采集处理,即可实现我们刚
您可能关注的文档
- 编码孔径成像技术26.ppt
- 编织基础之棒针编织法(三) 棒针基本针法的记号及与编织方法11.doc
- 编译原理 消除回溯27.ppt
- 编译原理课设 (中版)26.doc
- 缙云县拆迁安置用房主体工程评估报告24.pdf
- 缮制检验检疫证单19.ppt
- 编织可爱小蜻蜓_百度经验11.pdf
- 网上商城购物系统 项目总结报告38.doc
- 网上信息的获取—课件15.ppt
- 网上购物平台——测试计划21.doc
- 2025年小学语文毕业升学考试全真模拟卷(语文口语表达实战演练试题).docx
- 基于GaN衬底的铁电薄膜光电探测器研究.docx
- 2025年乡村医生基础医学知识试题汇编与解析试卷.docx
- 2025年消防安全知识培训考试题库:消防宣传教育方法评估指标高频试题.docx
- 激光选区熔化成形镍钛合金及其Gyroid点阵结构优化设计.docx
- 2025年高压电工考试题库:高压设备操作流程规范与电气安全试题精选.docx
- 2025年会计职称考试《初级会计实务》会计职业道德与规范真题解析与备考指南与试题.docx
- 2025年成人高等学校招生考试《语文》写作素材积累题库——寓言故事篇试题.docx
- 2025年ACCA国际注册会计师考试真题卷-财务报表编制实务试题.docx
- 不同稻蛙种养密度下稻蛙鳅鱼共作系统生态与经济效益评估.docx
文档评论(0)