最新关关采集器则编写教程(图文详解版).docVIP

  • 11
  • 0
  • 约7.58千字
  • 约 6页
  • 2016-10-15 发布于广东
  • 举报

最新关关采集器则编写教程(图文详解版).doc

最新关关采集器则编写教程(图文详解版)

首先 介绍一下关关采规则当中需要用到的一些标签 \d* 表示数字 ?\s* 表示空格+换行 ?.+? 表示字符(不能为空) ?.*??表示字符(可以为空) ()??表示我们需要的部分 ? ?((.|\n)*) 章节的内容部分,包括了换行。 =====与杰奇后台标签的对应关系===== !!!!??相当于??([^]*) ~~~~??相当于??([^]*) ^^^^??相当于??([^\d]*) $$$$??相当于??([\d]*) ****??相当于??(.*) (规则文件存放在Rules目录下)。)那么我就把我复制的那份做模板的规则这个主要是便于规则管理运行采集器里的规则管理工具,打开后载入刚刚我们命名为.xml的文件。现在可以正式的编写规则了,我们写规则时要找的标志性代码必需是整个页面里唯一的代码,其次我们取用的部份代码超精简超好。 1. GetSiteName(站点名称) 这里我们写(在执行任务时会在上方显示) 2. GetSiteCharset(站点编码) 这里我们打开源代码查找 charset= 得到charset=gbk这个gbk就是我们需要的站点编码 3. GetSiteUrl(站点地址) 写入 4. NovelListUrl(站点最新列表地址) 因为这些每个站点的不同,这个就需要自己去找了凌风阁的是/modules/article/toplist.php?sort

文档评论(0)

1亿VIP精品文档

相关文档