- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
采集车用户手册v1.0
采集车V1.0
用
户
手
册
2012年11月15日
目 录
第一章 概述 3
第二章 软硬件环境 4
2.1硬件环境 4
2.2软件环境 4
第三章 安装说明 5
3.1相关配置软件的安装 5
3.2软件的安装 5
第四章 操作说明 6
4.1 绑定站点 6
4.2 采集规则 7
4.2采集设置 15
4.3活动推广 24
第一章 概述
采集车()是一个完全免费,使用方便,具有门槛低,速度快,效率高,安全可靠等优点的在线采集平台。
第二章 软硬件环境
2.1硬件环境
【您手上的电脑完全可以满足条件】
2.2软件环境
1 个人网站
2 能连互联网
第三章 安装说明
采集车由客户端和服务器端两部分组成,客户端安装在用户机器上,用户只需要将客户端压缩包下载并解压到相应位置即可
3.1相关配置软件的安装
【无】
3.2软件的安装
客户端安装:在采集车网站首页下载客户端,解压并上传到要进行内容采集的网站(目标网站)根目录,为了安全起见,建议把caijiche文件夹和其中的caijiche.php改名后上传,例如test.php等不引人注意的名字,客户端安装的教程见下面的链接
/forum/forum.php?mod=viewthreadtid=52extra=page%3D1
第四章 操作说明
使用采集车的功能之前,需要在采集车网站注册一个账号并登陆,然后按照下面的操作进行。
4.1 绑定站点
绑定站点是指将目标站点录入到采集车系统中,作为采集的对象.
输入站点名称,选择站点类型,输入客户端的入口文件,即步骤3.2中我们上传到客户端根目录的文件,例如/caijiche_123/test.php,然后点击提交,就绑定好了一个站点。
4.2 采集规则
采集规则是指针对某个采集目标的配置,包括采集数据来源和范围,比方说,我绑定了一个汽车方面的站点,需要采集腾讯汽车频道的文章,那么针对腾讯汽车频道新建一个采集规则。
是否公开: 是指新建的规则是否可以被其他人看到和使用,其他人使用时需要给创建者一定积分,即下方的所需积分。
设置方法有两种:
1采集获得内容网址,我们只需要提供一个文章的入口,如列表索引页面
设置列表位置:即确定文章的链接在索引页面页中html的位置,如下图:我们要采集的就是红线框内的内容,要把这些链接标记出来。
这里我们以首选的方式--选择器来定位,在hmtl代码中找到链接的父节点,去掉其中不需要的内容,如下图的时间。
点击检测可以预览效果
点击确定。
点击确定
可以看到设置列表位置已经打勾,表示已经设置完成。
接下来我们如法炮制,设置列表分页位置:
注意途中标明的位置,检测一下
这就是分页所在的位置。确定后,就设置完了。
接下来点击下一步进行采集内容的设置。
这里列出了列表页面的所有链接,选择其中任意一个页面,点击“添加项目“
这里我们定义一个项目叫“标题“,即文章的标题,当然标题只有一行,是没有分页的。所以选择”否“
我们再添加一个项目“正文“,当然,名字可以随便取。
正文是可能有分页的,所以选择”是”,然后点击“提交完成“,这样,一个规则就新建好了。
4.2采集设置
采集设置这个模块包括“采集列表“,”新建采集“,”任务列表“,”新建任务“4个子页面,“采集列表”列出所有采集项。
”新建采集“即新建一个采集项。
其中
采集项目名称:自定义
站点选择:可选的内容是当前用户绑定的在线的站点
发布到类别:暂时只有帖子,即采集的内容以何种方式发表。
规则类型:可选“采集规则“,和”智能引擎“,这里选采集规则,智能引擎也是采集规则的一种形式,放在后面介绍。
使用规则:这里可选当前用户可用的所有规则,包括自己新建的和获取别人授权的。我们以刚刚新建的“腾讯汽车频道”规则为例。
这里是采集时的参数,用户可根据自己需要进行选择,我们选择默认项目,点击下一步。
右边的参考列出了这个采集规则中采集可以的对象,这里有标题和正文两个,前面的数字是代码,左边输入时我们只需要输入对应代码即可。比如[529]就是标题。这样,采集回来的文章标题就是我们在规则中选定的“标题“。提交后,一个采集项目就新建完成了。
我们启动这个采集项目。
图中显示正在进行文章采集。
可以看到,我们所需要的文章已经成功出现在绑定的站点中,说明采集非常成功!
采集任务:
采集任务是一个定时器,可以定时启动采集项目。
新建一个定时采集任务。
选择一个采集项目,选择启动周期和时间。
可以看到,在制定的时间内,已经进行了自动采集。下面看下自动采集的结果。
智能引擎:
智能引擎是一种
文档评论(0)