- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网站采集器如何实现网站数据采集
网站采集器如何实现网站数据采集
入门篇
网站采集,就是从网站页面中抽取指定的数据,人工方式就是打开网页然后开始Ctrl+C Ctrl+V的进行拷贝粘贴。人工方式采集数据最为准确,但效率最低。所以,期望计算机可以自动化的将人工操作执行,完成数据采集的工作。
计算机将人工的Ctrl+C Ctrl+V自动化执行,需要一定的指导操作,譬如:计算机需要打开那个页面,拷贝哪些信息,将拷贝的信息又要粘贴到哪里?这些都是人工操作时必须制定的操作,转化到计算机,也必须知道计算机这样来进行。
所以,需要配置一些规则来指导计算机的操作,这个规则的组合在网络矿工中我们称之为“采集任务”。通过上面的描述,我们知道采集任务中至少要包括网页地址、网页的拷贝数据的规则。
网页的地址很容易理解,每次我们打开一个网站时,首先都是要输入一个地址,这个地址称之为“Url”,输入Url后,我们就可以浏览一个页面了。
拷贝数据的规则:人工拷贝数据很简单,人工智能么,很容易识别需要采集的数据,但对于计算机,就会有些难度,计算机不知道想要采集什么数据?必须由人工告诉计算机采集数据的规则,譬如:我们需要采集文章标题,那么就需要告诉计算机如何在一个网页中识别文章标题,并准确的采集下来。在这个指导的过程中,有两种方式计算机可以理解(当然不排除还有其他的方式,譬如:计算机智能化):
按照字符串获取的规则来指导计算机采集数据:一个网页是由浏览器对一个大字符串进行解析后展示的结果,这个大字符串就是网页源码,任何浏览器都可查看网页源码,打开网页源码后,在网页源码中通常(注意:是通常)都可以找到网页显示的内容,自然文章标题也可以找到,找到文章标题后,告诉计算机要采集这个标题数据,规则就是:从哪个字符开始获取到那个字符结束,举个简单例子:“h1今天的天气很好啊/h1”这样一个字符串,我们要获取“今天的天气很好啊”,就是告诉计算机从“h1”后面开始获取到“/h1”结束,将中间的字符采集下来,计算机就会对这个字符串进行识别,并按照定制的规则将所需要的数据获取。采集数据,就是要配置这样的规则来指导计算机将网页数据逐一采集下来;
还有第二种方式来指导计算机采集数据:通常(注意:又是通常)情况网页的源码是一个XML文档。XML 定义:用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言XPath是XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 {Num:1001,1999,1} ,这样就完成了998篇文章url的构成,系统会自动将url解析出来,{Num:1001,1999,1}是一个数字递增的参数,从1001开始递增,每次递增加1,直至1999结束。在网络矿工中提供了很多这样的参数来帮助用户完成N多url的构成;
有些Url并不一定可以通过一定可识别的规则来构成,那该如何?譬如:http://www.******.com/s.aspx?area=北京,这是一个带入了地区参数的Url,全国有众多的城市,总不能一个一个输入。针对这种Url,我们可以用字典参数,首先将全国城市数据获取(互联网有成批的这种数据文档,下载即可),建立在字典中,然后通过配置url完成这种貌似无规则url的构成,http://www.******.com/s.aspx?area= {Dict:城市},这个参数表示了使用字典:城市的值,这样也可以完成成批Url的构成;
按照网站的数据组织结构来成批配置Url,我们浏览一个网站是,通常是从网站的首页进入,而网站为了更好的让用户找到期望看到的信息,都会按照一定的分类结构对数据进行组织,并提供一个列表对数据进行展示,分类一般都是网站的频道,列表通常是一个频道下的列表(数据索引)页面,由于数据众多,这个页面可能会有翻页,也可能还会进行子类的划分。所以,我们可以通过这个方式进行成批Url的配置。这个配置的过程,在网络矿工中需要配置导航规则、翻页规则。
导航规则:导航就是从一个页面进入另外一个页面的操作,网站的首页就是一个导航页,首页会有很多的栏目入口,点击就可以进入各个栏目,导航就是让计算机自动进入每个栏目,导航可以有很多,代表的就是从一个导航页进入一个栏目,再进入一个子栏目,再进入一个详细的页面,如果详细页还需要提取更多的数据,那么还需要导航进入,就好像我们在浏览数据一样,从一个页面进入另一个页面,再进入一个页面,每个导航页都带有了大量的需要采集数据的url,系统会自动获取这些url来实现成批数据的采集;
翻页规则:当数据量大的时候,网站会提供翻页操作,很典型的就是新闻列表页,会有很多新闻,第一页一直到第N页,所以,为了可以获取第1页以后的数据,我们还需要告诉计算机如何翻
您可能关注的文档
最近下载
- 1.1_犬的起源、进化与特征.ppt VIP
- 2024高考语文考前精刷卷专题十四文学类文本阅读散文.docx VIP
- 大学语文之诗经电子教案.doc VIP
- 高校生活超市和24小时便利店租赁经营投标常用方案(最全).doc VIP
- 15J001 围墙大门图集标准.docx VIP
- 双向搅拌桩加固高速公路软土地基现场对比试验研究.pdf VIP
- 铁道概论:铁路信号和通信PPT教学课件.pptx VIP
- 《医学微生物学》课件——细菌的形态与结构.ppt VIP
- 贵州丹寨金汞矿日处理500吨(一期250吨)金汞原矿浮选生产线技改项目环境影响报告书.pdf VIP
- 大一新生班干部竞选演讲稿PPT.pptx VIP
文档评论(0)