- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络矿工采集配置高级设置教程.doc
网络矿工采集器采集配置高级功能教程
此教程适合于中级用户,在掌握了网络矿工基础配置之后,阅读此教程,如果您是初学者,建议您首先阅读网络矿工入门教程。
网址参数
网址参数支持三个类:递增递减类、字典类、外部参数;
递增递减类参数:数字递增递减,字母递增递减,数字自动补零递增递减,举例:/sale/p{Num:1,271,1}/ 用数字参数替换页码,可以实现271页数据的采集。
字典类:网址参数不规律的替换,用户可以建立自己的字典用于网址替换实现网址成批采集,譬如:采集百度贴吧,建立字典百度贴吧地区,然后设置需要采集的贴吧信息,配置采集网址时进行参数设置/f?kw={Dict:百度贴吧地区},实现百度贴吧指定数据的采集;
外部参数:配置时参数值不固定,在运行采集时由用户指定输入参数值。详细可参见:/article.aspx?id=1026。
网址的复制与粘贴
为何要提供网址的复制粘贴功能?在大量配置网址时需要,如果网址的导航规则不同,但又需要多个入口的地址(譬如:很多网站的第一页和后续的页面网址是不同的),可配置第一个网址的信息,复制粘贴出来,修改入口地址即可快速完成第二个网址的配置,在导航或多页配置时即为有用;
选中网址,点击鼠标右键,即可复制粘贴。
参数传递配置网址
在导航和多页配置中,参数传递将非常有用。在部分网站中,导航或多页的网址是通过js来实现跳转的,我们可以模拟这种js操作,将需要传递的参数采集出来,然后将参数匹配给导航出来的网址,即可实现js跳转操作。
以采集淘宝评论数据为例,通过淘宝的商品页进行评论数据的导航,此过程需要传递三个参数:itemid、spuid和sellerid,此三个参数可以通过产品页获取,获取后传递给评论页url,即可实现评论页的采集,此下载实例可参见网络矿工资源任务;
导航翻页
对于连续页面的采集有两种方法:1、用url中的页码参数进行页面翻页;2、采用网页提供的下一页翻页参数进行。导航翻页可以配置两种翻页规则。是一个列表页,我们可以通过页码参数实现翻页,但也可以配置翻页规则来实现翻页。这是第一个翻页规则。同时第一层导航页导航出来的也是一个列表页,此时还需翻页,这是第二个翻页规则。第一种翻页规则我们称之为:导航页翻页规则,第二种翻页规则我 们称之为:导航页获取的页面翻页规则。请仔细对应界面。/bbs/showtopic-50.aspx
Cookie管理
通常理解下,只有在登录采集的时候才会需要Cookie信息,但某些网站对于访客也会判断cookie信息。对于需要cookie信息方可采集的网站,我们可配置Cookie进行数据采集。但对于网路矿工有一个比较纠结的问题:
在配置任务时,获取cookie集成的方法是浏览器,用户只需要用内置的浏览器登录网站,系统即可捕获cookie信息。内置浏览器在某些情况下会出现获取cookie不完整。而这种不完整用户是无法判断的。通过嗅探器获取的cookie可以确保完整无误,这样在操作的时候会非常的尴尬。
所以,在此请各位用户非常注意:如果需要cookie采集的网站,在设置了cookie信息后,通过“采集规则分析”功能确定系统是否正确返回了源码,如果没有,请使用嗅探器进行cookie的重设。
采集规则分析
先讲下采集规则分析,采集规则分析是网络矿工提供的一个对采集网址配置、采集规则配置正确性校验的一个工具。
如果采集网址配置正确,系统会自动根据采集网址配置的信息自动获取需要采集的网址,并将此网址的源码获取,在此可判断1)网址规则是否正确?2)采集的数据是否在源码中存在?3)如果获取错误,源码中的错误信息是什么?譬如:需要登录;
当网址正确后,可以检验采集数据规则本身是否正确,按“F5”系统可进行数据匹配,匹配成功后会显示,如果无匹配的数据,表示规则失败;
正则分析,同时这个工具也是一个正则分析器,可以用来分析正则表达式的正确性和匹配的结果。
采集数据配置注意事项
如果采用规则配置的方式,一定要按照网页代码的顺序配置,这点很重要,系统匹配数据是从上至下,所以,如果顺序颠倒,可能又部分数据采集不到,尽管规则配置正确;
如果采用可视化配置,可以不用考虑顺序的问题,随意配置即可;
系统提供了通配符,通配符实际是正则表达式,用户也可手工输入正则表达式的通配符,但一定要用Wildcard/Wildcard包含,这样系统可以识别这是一个正则表达式进行处理;
静默运行方式
静默运行方式是一种不打扰运行,系统不会将日志信息和采集的数据进行输出,同时系统也不会再弹出托盘菜单气泡提示,所有信息都将由系统处理,而且会把相关系统信息以日志的方式进行输出。
静默运行方式是一种不打扰方式,当用户需要采集数据而且还有其他工作同时进行时,建议采用此种方式,启动静默采集时,系统好像是一个后台服务,始终
您可能关注的文档
最近下载
- 2022版英语课程标准考试题库及答案1.docx
- TZS 0678—2025《生物安全实验室工作人员本底血清样本管理规范》(水印版).pdf VIP
- GB28050 -2025《预包装食品营养标签通则》解读.pptx VIP
- 2025年石墨烯 固态电池.pptx VIP
- 蛋白质似药物的PEG化学修饰.ppt VIP
- 义务教育版(2024)五年级全一册信息科技 第1课 生活处处有算法 教案.docx VIP
- 2蛋白质药物的分离纯化与化学修饰.pptx VIP
- GJB质量经济性分析报告.docx VIP
- 【高中物理竞赛专题大全】竞赛专题6狭义相对论45题竞赛真题强化训练解析版.pdf VIP
- 英威腾CHV190起重机专用变频器说明书V1-01.pdf VIP
文档评论(0)