网站采集器如何实现网站数据采集.docVIP

下载本文档

4
0
约2.71千字
约 5页
2016-10-11 发布于重庆
举报
版权申诉

网站采集器如何实现网站数据采集.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网站采集器如何实现网站数据采集

网站采集器如何实现网站数据采集入门篇网站采集，就是从网站页面中抽取指定的数据，人工方式就是打开网页然后开始Ctrl+C Ctrl+V的进行拷贝粘贴。人工方式采集数据最为准确，但效率最低。所以，期望计算机可以自动化的将人工操作执行，完成数据采集的工作。计算机将人工的Ctrl+C Ctrl+V自动化执行，需要一定的指导操作，譬如：计算机需要打开那个页面，拷贝哪些信息，将拷贝的信息又要粘贴到哪里？这些都是人工操作时必须制定的操作，转化到计算机，也必须知道计算机这样来进行。所以，需要配置一些规则来指导计算机的操作，这个规则的组合在网络矿工中我们称之为“采集任务”。通过上面的描述，我们知道采集任务中至少要包括网页地址、网页的拷贝数据的规则。网页的地址很容易理解，每次我们打开一个网站时，首先都是要输入一个地址，这个地址称之为“Url”，输入Url后，我们就可以浏览一个页面了。拷贝数据的规则：人工拷贝数据很简单，人工智能么，很容易识别需要采集的数据，但对于计算机，就会有些难度，计算机不知道想要采集什么数据？必须由人工告诉计算机采集数据的规则，譬如：我们需要采集文章标题，那么就需要告诉计算机如何在一个网页中识别文章标题，并准确的采集下来。在这个指导的过程中，有两种方式计算机可以理解（当然不排除还有其他的方式，譬如：计算机智能化）：按照字符串获取的规则来指导计算机采集数据：一个网页是由浏览器对一个大字符串进行解析后展示的结果，这个大字符串就是网页源码，任何浏览器都可查看网页源码，打开网页源码后，在网页源码中通常（注意：是通常）都可以找到网页显示的内容，自然文章标题也可以找到，找到文章标题后，告诉计算机要采集这个标题数据，规则就是：从哪个字符开始获取到那个字符结束，举个简单例子：“h1今天的天气很好啊/h1”这样一个字符串，我们要获取“今天的天气很好啊”，就是告诉计算机从“h1”后面开始获取到“/h1”结束，将中间的字符采集下来，计算机就会对这个字符串进行识别，并按照定制的规则将所需要的数据获取。采集数据，就是要配置这样的规则来指导计算机将网页数据逐一采集下来；还有第二种方式来指导计算机采集数据：通常（注意：又是通常）情况网页的源码是一个XML文档。XML 定义：用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言XPath是XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 {Num:1001,1999,1} ，这样就完成了998篇文章url的构成，系统会自动将url解析出来，{Num:1001,1999,1}是一个数字递增的参数，从1001开始递增，每次递增加1，直至1999结束。在网络矿工中提供了很多这样的参数来帮助用户完成N多url的构成；有些Url并不一定可以通过一定可识别的规则来构成，那该如何？譬如：http://www.******.com/s.aspx?area=北京，这是一个带入了地区参数的Url，全国有众多的城市，总不能一个一个输入。针对这种Url，我们可以用字典参数，首先将全国城市数据获取（互联网有成批的这种数据文档，下载即可），建立在字典中，然后通过配置url完成这种貌似无规则url的构成，http://www.******.com/s.aspx?area= {Dict:城市}，这个参数表示了使用字典：城市的值，这样也可以完成成批Url的构成；按照网站的数据组织结构来成批配置Url，我们浏览一个网站是，通常是从网站的首页进入，而网站为了更好的让用户找到期望看到的信息，都会按照一定的分类结构对数据进行组织，并提供一个列表对数据进行展示，分类一般都是网站的频道，列表通常是一个频道下的列表（数据索引）页面，由于数据众多，这个页面可能会有翻页，也可能还会进行子类的划分。所以，我们可以通过这个方式进行成批Url的配置。这个配置的过程，在网络矿工中需要配置导航规则、翻页规则。导航规则：导航就是从一个页面进入另外一个页面的操作，网站的首页就是一个导航页，首页会有很多的栏目入口，点击就可以进入各个栏目，导航就是让计算机自动进入每个栏目，导航可以有很多，代表的就是从一个导航页进入一个栏目，再进入一个子栏目，再进入一个详细的页面，如果详细页还需要提取更多的数据，那么还需要导航进入，就好像我们在浏览数据一样，从一个页面进入另一个页面，再进入一个页面，每个导航页都带有了大量的需要采集数据的url，系统会自动获取这些url来实现成批数据的采集；翻页规则：当数据量大的时候，网站会提供翻页操作，很典型的就是新闻列表页，会有很多新闻，第一页一直到第N页，所以，为了可以获取第1页以后的数据，我们还需要告诉计算机如何翻