- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
首先 介绍一下关关采规则当中需要用到部分标签
\d* 表示数字 ?\s* 表示空格+换行 ?.+? 表示字符(不能为空) ?.*??表示字符(能够为空)()??表示我们需要部分 ? ?((.|\n)*) 章节内容部分,包含了换行。=====和杰奇后台标签对应关系=====!!!!??相当于??([^]*)~~~~??相当于??([^]*)^^^^??相当于??([^\d]*)$$$$??相当于??([\d]*)****??相当于??(.*)
第一步: 我们先复制一份原来规则做模板(规则文件存放在Rules目录下)。 比如说我今天演示采集站点是 阅微阁(.com) 这个小说站点
那么我就把我复制那份做模板规则命名为:阅微阁.xml 这个关键是便于规则管理。
第二步:运行采集器里规则管理工具,打开后载入刚刚我们命名为阅微阁.xml文件。
第三步:现在能够正式编写规则了,我们写规则时要找标志性代码必需是整个页面里唯一代码,其次我们取用部份代码越精简越好。
1. GetSiteName(站点名称) 这里我们写阅微阁(在实施任务时会在上方显示)
2. GetSiteCharset(站点编码) 这里我们打开.com源代码查找 charset= 得到charset=gbk这个gbk就是我们需要站点编码
3. GetSiteUrl(站点地址) 写入
4. NovelListUrl(站点最新列表地址) 因为这些每个站点不一样,这个就需要自己去找了阅微阁是
5. NovelList_GetNovelKey(从最新列表中取得小说编号) 此规则中需要同时取得书名,取得书名是在手动模式时候用到,假如你要用手动模式那么必需取得书名,不然手动模式将会无法使用。我们 打开?这个地址查看源文件,我们编写这个规则时候找到想要取得内容所在地方,
比如我们打开地址看到想要取得内容第一本小说名字是“赘婿”我们在源文件里面找到“赘婿”复制代码我们编写规则用到代码其实也不是很多,编写规则标准是能省则省,也就是说代码越短越好除非万不得已通常精短部分比很好。好了不废话了,在这个规则里面我们需要用到是《a href= title=赘婿 target=_blank赘婿/a》复制代码我们将这段改改成:《a href=+?=(\d*) title=.+? target=_blank(.+?)/a》
复制代码其中 (\d*) 表示编号 (.+?) 表示小说名 .+?表示替换此位置字符,经过测试正确
6. NovelUrl(小说信息页地址) 这个很轻易,我们随便点开一本小说就能知道了,比如说,我们能够看到我们改下将里面633换成 {NovelKey}
7. NovelName(取得小说名称正则) 我们还打开刚才那本书,取得小说名称那我们在源代码里查找
赘婿,此代码要源码中唯一
span class=bignamei/i赘婿i/i/span复制代码这一段 我们改下
span class=bignamei/i(.+?)i/i/span
下面 NovelAuthor(取得小说作者)、LagerSort(取得小说大类)、SmallSort(取得小说大类)、NovelIntro(取得小说介绍)、NovelKeyword(取得小说主角(关键字))、NovelDegree(取得写作进程)、NovelCover(取得小说封面)这些呢我就不具体演示了,这些跟上面那个取得小说名方法是一样,也就所谓一通百通。需要说到是取得介绍时候最好用?((.|\n)*)来替换,因为中间可能包含换行。
8. NovelInfo_GetNovelPubKey(取得小说公众目录页地址)很多站目录页地址有子ID在前边,所以我们要采集目录页地址我们取得代码以下: ?span class=opendira href=打开完整目录列表/a/span
复制代码这一段 我们改成:span class=opendira href=(.+?)打开完整目录列表/a/span
9. PubIndexUrl(公众目录页地址) 这个里面写入{NovelPubKey}
10. PubVolumeSplit(分割分卷), 这个分割分卷,有些地方需要注意到,假如分割分卷正则没对,那么有可能对于下面取得章节名那些有很大影响,这里我们怎么取得分割部分代码呢?按我经验,是找到第一个分卷跟下面分卷查看她们共同处,现在我们分析?这个目录章节源代码,能够看出分卷代码为h2
标签,所以分割分卷就填写h2
11?. PubVolumeName(取得分卷名) 分割部分用到h2所以分卷名为h2(.+?)/h2
12. PubChapterName(取得章节名) 这个我们拿一段来说明
lia href=502052.html第一章 降临五行山/a/li
复制代码
您可能关注的文档
最近下载
- 中国慢性呼吸道疾病呼吸康复管理指南解读课件.pptx VIP
- SAE J588-2000 总宽度小于2032mm的机动车用转向信号灯.pdf VIP
- 双减背景下新课标单元整体作业分层设计案例 人教版初中化学九年级上册 第三单元 物质构成的奥秘(4).docx VIP
- 应征入伍服兵役高等学校学生国家教育资助申请表1(样表).docx
- 2023年少儿迎春杯六年级初赛竞赛试题数学.docx VIP
- 光伏电站一体化监控统一管理平台项目建设技术方案.docx VIP
- 《宋史·舆服志》服饰词汇研究.pdf VIP
- 竞选体委演讲稿PPT.pptx VIP
- 广西壮族自治区生态功能区划.pdf VIP
- 水下测量技术方案.docx VIP
文档评论(0)