最新关关采集器指导规则编写教程图文详解版.docVIP

下载本文档

100
0
约3.33千字
约 9页
2021-01-04 发布于江苏
举报
版权申诉

最新关关采集器指导规则编写教程图文详解版.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

首先介绍一下关关采规则当中需要用到部分标签 \d* 表示数字 ?\s* 表示空格+换行 ?.+? 表示字符(不能为空) ?.*??表示字符(能够为空)()??表示我们需要部分 ? ?((.|\n)*) 章节内容部分，包含了换行。=====和杰奇后台标签对应关系=====!!!!??相当于??([^]*)~~~~??相当于??([^]*)^^^^??相当于??([^\d]*)$$$$??相当于??([\d]*)****??相当于??(.*) 第一步: 我们先复制一份原来规则做模板（规则文件存放在Rules目录下）。比如说我今天演示采集站点是阅微阁（.com）这个小说站点那么我就把我复制那份做模板规则命名为：阅微阁.xml 这个关键是便于规则管理。第二步：运行采集器里规则管理工具，打开后载入刚刚我们命名为阅微阁.xml文件。第三步：现在能够正式编写规则了，我们写规则时要找标志性代码必需是整个页面里唯一代码，其次我们取用部份代码越精简越好。 1. GetSiteName(站点名称) 这里我们写阅微阁（在实施任务时会在上方显示） 2. GetSiteCharset(站点编码) 这里我们打开.com源代码查找 charset= 得到charset=gbk这个gbk就是我们需要站点编码 3. GetSiteUrl(站点地址) 写入 4. NovelListUrl(站点最新列表地址) 因为这些每个站点不一样，这个就需要自己去找了阅微阁是 5. NovelList_GetNovelKey(从最新列表中取得小说编号) 此规则中需要同时取得书名，取得书名是在手动模式时候用到，假如你要用手动模式那么必需取得书名，不然手动模式将会无法使用。我们打开?这个地址查看源文件，我们编写这个规则时候找到想要取得内容所在地方，比如我们打开地址看到想要取得内容第一本小说名字是“赘婿”我们在源文件里面找到“赘婿”复制代码我们编写规则用到代码其实也不是很多,编写规则标准是能省则省,也就是说代码越短越好除非万不得已通常精短部分比很好。好了不废话了，在这个规则里面我们需要用到是《a href= title=赘婿 target=_blank赘婿/a》复制代码我们将这段改改成：《a href=+?=(\d*) title=.+? target=_blank(.+?)/a》复制代码其中 (\d*) 表示编号 (.+?) 表示小说名 .+?表示替换此位置字符，经过测试正确 6. NovelUrl(小说信息页地址) 这个很轻易，我们随便点开一本小说就能知道了，比如说，我们能够看到我们改下将里面633换成 {NovelKey} 7. NovelName(取得小说名称正则) 我们还打开刚才那本书，取得小说名称那我们在源代码里查找赘婿，此代码要源码中唯一 span class=bignamei/i赘婿i/i/span复制代码这一段我们改下 span class=bignamei/i(.+?)i/i/span 下面 NovelAuthor(取得小说作者)、LagerSort(取得小说大类)、SmallSort(取得小说大类)、NovelIntro(取得小说介绍)、NovelKeyword(取得小说主角(关键字))、NovelDegree(取得写作进程)、NovelCover(取得小说封面)这些呢我就不具体演示了，这些跟上面那个取得小说名方法是一样，也就所谓一通百通。需要说到是取得介绍时候最好用?((.|\n)*)来替换，因为中间可能包含换行。 8. NovelInfo_GetNovelPubKey(取得小说公众目录页地址)很多站目录页地址有子ID在前边，所以我们要采集目录页地址我们取得代码以下： ?span class=opendira href=打开完整目录列表/a/span 复制代码这一段我们改成：span class=opendira href=(.+?)打开完整目录列表/a/span 9. PubIndexUrl(公众目录页地址) 这个里面写入{NovelPubKey} 10. PubVolumeSplit(分割分卷)，这个分割分卷，有些地方需要注意到，假如分割分卷正则没对，那么有可能对于下面取得章节名那些有很大影响，这里我们怎么取得分割部分代码呢？按我经验，是找到第一个分卷跟下面分卷查看她们共同处，现在我们分析?这个目录章节源代码，能够看出分卷代码为h2 标签，所以分割分卷就填写h2 11?. PubVolumeName(取得分卷名) 分割部分用到h2所以分卷名为h2(.+?)/h2 12. PubChapterName(取得章节名) 这个我们拿一段来说明 lia href=502052.html第一章降临五行山/a/li 复制代码