discuz论坛cx采集器采集教程.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
discuz论坛cx采集器采集教程

安装要求 配置插件 添加采集规则 计划任务 同义词管理 本插件适用于php 5.x版本。 安装新插件 “安装新插件”提供新插件的安装和数据导入。 进入到“安装新插件”,可以看到已经上传到 source/plugin/ 目录,但是尚未安装的插件,点击插件右侧的“安装”链接,便可以安装插件了。 安装后,返回到插件列表启用插件。 [导][图][重] 同义词库管理界面: 可以临时新增一组词,也可以用文本的方式批量导入。 同义词库4180组:/thread-28-1-1.html 也可以自行编写同义词库文本。 单向默认用“→” 双向默认用“=”。 一行一组词。如: 爱护=保护 安顿→安排 安全=平安 安适=安闲 安慰=抚慰 要求文本编码为ANSI,这也是记事本默认的编码。 图片是否加水印:这里将取代站点的水印开关设置,但具体水印设置按后台的水印设置。所以还是先要设置好站点后台的水印设置。 替换同义词:这里是设置是否使用同义词库自动替换同义词,替换范围包括标题和内容。对于纯图片的文章就没必要开启了。支持单向和双向替换,举个例子。 供给-供应(单向):文章中如果有“供给”这词就替换为“供给”,但如果是“供应”这词则不会替换为“供给”。 整洁-整齐(双向):文章中有“整洁”就会替换“整齐”,有“整齐”就会替换成“整洁”。 具体同义词库管理看后面的章节。 预定义发布时间:若这里设置了时间,则发布时间为设置时间,若留空,则时间为采集当前时间。 列表页面采集设置 根据自己的需要来进行相关内容的确定,这里以新闻中心为例。点击进入 内容非常的丰富,也分很多类别,确定自己要采集的类别。现在我的要找的是一个文章列表,目光焦点通常放到“更多”2个字上面。这里很明显不合用,继续查看,先找到要的猎物。 发现目标,这里选择国内新闻为例。点击国内进入。 同样类别非常的多,当然可以采集中间这个列表,但为了教程更通用,下面选择比较常见的列表形式。这里选择时政要闻。 点击进入。 非常好,很直观的列表。这里就找到了要用的列表地址: /newsgn/zhxw/shizhengxinwen.htm 继续观察列表的URL地址规律。 /newsgn/zhxw/shizhengxinwen_2.htm /newsgn/zhxw/shizhengxinwen_3.htm 。。。 规律很明显。 /newsgn/zhxw/shizhengxinwen_[page].htm 下面再测试一下首页是否也符合这个规律。根据规律写出地址: /newsgn/zhxw/shizhengxinwen_1.htm 发现打不开,说明首页跟其它页面不一样,这样就填写2个地方了。 填写到手工输入 文章倒序采集:设为此项后列表中的文章将从列表最后面链接的开始采集 采集页面编码:请输入要采集页面的编码。比如:gbk、utf-8、big5。为空则不进行编码转换。用程序辅助识别一下,一般被采集页面为GB2321,你的为GBK,则可以不转换。 继续 列表区域识别规则div class=pageNav span class=nalt;上一页/spanstrong1/stronga href=/newsgn/zhxw/shizhengxinwen_2.htm2/aa href=/newsgn/zhxw/shizhengxinwen_3.htm3/aa href=/newsgn/zhxw/shizhengxinwen_4.htm4/aa href=/newsgn/zhxw/shizhengxinwen_5.htm5/aspan class=mor.../spana href=/newsgn/zhxw/shizhengxinwen_80.htm80/aa class=f12 href=/newsgn/zhxw/shizhengxinwen_2.htm下一页gt;/a /div div class=mod newslistulli·a target=_blank href=/a001505.htm外企入驻北京 名称用“中国”“优惠”2000万 /a span class=pub_time10月18日#160;15:41/span /li 这里看到有个比较明显的开始标志:div class=mod newslist,在源文件中搜索,看看这个第一次出现的位置是不是我们要的位置,如果不是,再改用其它。很好这个只出现过一次。 下面定位结束,同样快速定位到列表结束的地方。 结束标志要注意的地方是你找到的标志字串的位置是不是刚才确定的开始标志的后面第一个出现的位置,如果不是则会出现列表不完整的问题。这个要好好观察了。很幸运,列表中没有出现过/div,所以我们就选择这个作为结束标志串。结合起来就是 div class

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档