最新关关采集器规则编写教程(图文详解版).docVIP

下载本文档

15
0
约3.29千字
约 6页
2016-08-16 发布于重庆
举报
版权申诉

最新关关采集器规则编写教程(图文详解版).doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最新关关采集器规则编写教程(图文详解版)

首先介绍一下关关采规则当中需要用到的一些标签 \d* 表示数字 ?\s* 表示空格+换行 ?.+? 表示字符(不能为空) ?.*??表示字符(可以为空)()??表示我们需要的部分 ? ?((.|\n)*) 章节的内容部分，包括了换行。=====与杰奇后台标签的对应关系=====!!!!??相当于??([^]*)~~~~??相当于??([^]*)^^^^??相当于??([^\d]*)$$$$??相当于??([\d]*)****??相当于??(.*) （规则文件存放在Rules目录下）。）那么我就把我复制的那份做模板的规则这个主要是便于规则管理运行采集器里的规则管理工具，打开后载入刚刚我们命名为.xml的文件。现在可以正式的编写规则了，我们写规则时要找的标志性代码必需是整个页面里唯一的代码，其次我们取用的部份代码超精简超好。 1. GetSiteName(站点名称) 这里我们写（在执行任务时会在上方显示） 2. GetSiteCharset(站点编码) 这里我们打开源代码查找 charset= 得到charset=gbk这个gbk就是我们需要的站点编码 3. GetSiteUrl(站点地址) 写入 4. NovelListUrl(站点最新列表地址) 因为这些每个站点的不同，这个就需要自己去找了凌风阁的是/modules/article/toplist.php?sort=lastupdate 5. NovelList_GetNovelKey(从最新列表中获得小说编号) 此规则中需要同时获得书名，获得书名是在手动模式的时候用到，如果你要用手动模式那么必须获得书名，否则手动模式将会无法使用。我们打开/modules/article/toplist.php?sort=lastupdate?这个地址查看源文件，我们编写这个规则的时候找到想要获得的内容所在的地方，比如我们打开地址看到想要获得的内容的第一本小说的名字是“”我们在源文件里面找到“”复制代码我们编写规则用到的代码其实也不是很多,编写规则的原则是能省则省,也就是说代码越短越好除非万不得已一般精短一些比较好。好了不废话了，在这个规则里面我们需要用到的是复制代码我们将这段改复制代码其中 (\d*) 表示编号 (.+?) 表示小说名 .+?表示代替此位置字符，经过测试正确6. NovelUrl(小说信息页地址) 这个很容易，我们随便点开一本小说就能知道了，比如说/modules/article/articleinfo.php?id=633这本小说，我们可以看到的我们改下将里面的换成 {NovelKey}7. NovelName(获得小说名称正则) 我们还打开刚才那本书/modules/article/articleinfo.php?id=633查看源代码，获得小说名称那我们在源代码里查找赘婿，此代码要源码中唯一 span class=bignamei/i赘婿i/i/span复制代码这一段我们改下 span class=bignamei/i(.+?)i/i/span下面的 NovelAuthor(获得小说作者)、LagerSort(获得小说大类)、SmallSort(获得小说大类)、NovelIntro(获得小说简介)、NovelKeyword(获得小说主角(关键字))、NovelDegree(获得写作进程)、NovelCover(获得小说封面)这些呢我就不演示了，这些跟上面的那个获得小说名方法是一样的，也就所谓的一通百通。需要说到的是获得简介的时候最好用?((.|\n)*)来代替，因为中间可能包含换行。8. NovelInfo_GetNovelPubKey(获得小说公众目录页地址)很多站目录页的地址有子ID在前边，所以我们要采集目录页的地址我们获得代码如下： ?复制代码这一段我们改9. PubIndexUrl(公众目录页地址) 这个里面写入{NovelPubKey}10. PubVolumeSplit(分割分卷) 这个分割分卷有地方需要注意到如果分割分卷的正则没对那么有可对于下面的获得章节名那些有很大的影响这里我们获得分割部分的代码呢按我的经验是找到第一个分卷跟下面的分卷查看他们的共同在我们分析/files/article/html/0/622/index.html?这个目录章节的源代码可以看出分卷的代码为h2 标签，因此分割分卷就填写h211?. PubVolumeName(获得分卷名) 分割部分用到h2因此分卷名为h2(.+?)/h212. PubChapterName(获得章节名) 这个我们拿一段来说明复制代码如果有碰到时间、日期、更新字数什么的我们直接忽略，因为这些不是我们要获得的内容，这个我们可以用 .+? 来表示。好了我们吧上面的那一段改下改成