locoy火车头采集教程实例.docVIP

下载本文档

7
0
约5.01千字
约 16页
2016-06-29 发布于安徽
举报
版权申诉

locoy火车头采集教程实例.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

locoy火车头采集教程实例.doc

火车头采集教程火车头采集基本流程：系统设置(新建站点(新建任务(采集网址(采集内容(发布内容(抓数据。 1.新建站点：据你自己的需求为任务建立统一的站点，以方便管理。点击菜单上：站点(新建站点打开如下图：可以填写站点名，站点地址，网址深度（0，代表根据地址直接采内容。1，代表根据地址采内容地址，然后根据内容地址采内容。2，代表根据地址采列表地址，然后根据列表地址采内容地址，再根据内容地址采内容。），站点描述。 2.新建任务：任务是采集器采集数据时的基本工作单元，它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步：采网址，采内容，发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务（默认设置是同时最多运行3个任务）。任务的编辑界面如图：采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步，第一步是：采网址，第二步：采内容。采网址，就是从列表页中提取出内容页的地址。从页面自动分析得到地址连接：以/book/01.45.52_P1.html页面为例。我们来采集这个网址上的页面中有很多的链接,要采集每个链接中内容.首先需要将每个的链接地址抓取到也就是抓取内容页的地址。先将该列表页地址添加到采集器里。点击“向导添加”后弹出“添加开始采集地址”对话框。我们选择“单条网址” 点击添加把/book/01.45.52_P1.html地址添加到下面框中，点击完成即实现增加列表地址。如果我们选择 “批量/多页” ，如图：可用通配符：（*）可以代替页码变化时的地址之间的差异。数字变化可以设置你要爬取该列表页多少页。间隔倍数可以数字页码变化的倍数。你也可以设置字母变化。设置完之后点击添加按钮把列表地址添加到下框中，点击完成即可完成列表地址设置。你也可以选择文本导入和正则提取在这里就不一一讲了，因为这二种基本用的很少。手动是将需要的网址用参数来获得并组合成我们需要的网址。这个好处是处理网址那块有规律的网址很好处理，但要是没规律，和周围的一样的话，就不好处理了。我们以为例. 看图里的设置: 这样设置就可以获得网址了,这个网址是从摘要那块获得的，那一块的代码都是一个样式，所以可以。你看上图的话，会发现在参数那里有个缩略图，因为有的文章是将缩略图放在列表里的。现在我们举个例子。看这个/dz/，这个是电影的，有小图的，我们看一下怎么获得这个图片。注意，这里是同时获得网址和缩略图的。这样设置就可以获得真实网址了,这个网址是从摘要那块获得的，那一块的代码都是一个样式，所以可以。你看上图的话，会发现在参数那里有个缩略图，因为有的文章是将缩略图放在列表里的。现在我们举个例子。看这个/dz/这个是电影的，有小图的，我们看一下怎么获得这个图片。注意，这里是同时获得网址和缩略图的。在脚本规则里输入 [缩略图] 下边即出现无缩略图的提取内容中的第一张选项，将该项选中即可，再将[缩略图] 这几个字符去掉。如果您需要下载该图片，请选中将缩略图下载到本地。如果您不使用手动链接地址规则获取网址，将启用自定义格式得到地址选项去掉即可。注意事项：该功能只提取内容标签中的图片，所以请确保您要提取的图片在内容标签中。同时。如果内容标签中选了下载图片，则提取的图片也是下载到本地的图片地址。因为网址和缩略图那块的样子就是下边的，是有规律的，所以可以获得网址如果我们遇到那些用脚本做栏目列表时怎么办呢？用自动识别是不行的了。这时，该使用手动设置链接格式这个功能起作用了，这也是针对脚本类网址最好的解决办法。下边我们以腾讯Flash频道_作品列表为例来讲一下/classlist/listwork_1000130000_1.shtml你用自动获取网址是得不到什么地址的. 我们仔细分析/classlist/listwork_1000130000_1.shtml源码后就会发现，这个是这个样子的网址/cgi-bin/viewwork?id=727749　，只有最后的数字是不同的，而这数字就包含在脚本里边，我们看一下源码：注意：new Array(,后边就有我们要的网址，还有缩略图，我们可以这样写规则：这样就可以了，看一下效果ＯＫ了。当所有网址抓取完后就可以开始抓取内容。抓取内容就是采集器请求到内容页后分析内容页的HTML源代码并依据在采集器中的标签规则设置匹配出相应的数据。在测试到的地址中，任意选择一个子地址，双击选中的地址或者点击“测试该页”按钮。如图：将会跳转到任务中的“第二步：采集内容规则”如图：在典型页面中会出现刚才选中的网址，这里就是测试采集内容。左边的标签名下面有：标题共个标签，可以对标签进行添加、删除和编辑等操作。每个标