火车头采集器演示文稿-精品·公开课件.ppt

火车头采集器演示文稿-精品·公开课件.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
五、发布内容 1、启动以下两项,点击“定义web在线发布到网站全局设置”。 五、发布内容 2、点击添加,选择phpcms2008 新闻发布模块 3、在“网站/cms根地址”:输入http://localhost/phpcms/ 4、点击“在火车内置浏览器中登录” 五、发布内容 5、在地址栏输入:http://localhost/phpcms/admin 6、输入用户名phpcms密码phpcms 五、发布内容 7、登录点击“确认登录发布成功后即可关闭该窗口”,关掉此窗口。 获得 五、发布内容 8、登录本地后台(在浏览器中输入:http://localhost/phpcms/admin。账号密码phpcms) 9、选择“系统设置”中的“添加栏目”,点击下一步 五、发布内容 10、输入栏目名称、栏目目录,点击确定,在本地后台会出现对应列表。 11、点击获取列表后便可等对应ID,选择此次采集的对应列表。 五、发布内容 12、在配置名中输入要采集的栏目名称,点击保存配置。 13、设置完成后点击保存。 发布内容部分结束 六、任务采集 将刚刚编写好的规则保存后,程序则会自动跳转到主界面。右键点击设置好的任务,选择开始采集。在采集完成后系统会自动提醒采集完成。 七、导出数据 采集数据在火车头\Data文件中。 双击mdb格式文件,右键选择content选项,导出为Excel格式。 七、导出数据 建议将采集文档都放在一个文件夹里,有利于后续工作进行。 七、导出数据 打开导出的Excel文档,将ID、已采、已发、缩略图、PageUrl、处 理中等无关数据删除,只保留“标题”、 “资讯内容”、“内容摘要”、 “信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”。 ★在Excel中对采集文章进行最后筛选修改: 1、删除内容缺失的文章。 2、删除所有标题中带有(图)(组图)(视频)的文章。 3、检查资讯内容中错乱代码,如有发现错误利用ctrl+F对进行批量替换。 七、导出数据 导入数据库 打开后台,点击内容管理→资讯信息管理→批量导入资讯。 选择需要导入采集信息的列表名称,将修改好的采集文档上传数据库,点击导入。 导出数据部分完成 户外装备网 火车头采集器     使用流程说明 目录  一、软件安装  二、新建站点 三、采集网址 四、采集内容 五、发布内容  六、任务采集  七、导出数据  需要安装软件: (1) WAMP5-v1.7.4 (2) phpcms (3) LocoySpiderV2009SP4_Buil   (火车头采集器) 注:每次采集前需要將wamp5打开后,在用火车头采集。 一、软件安装 户外装备网 1、wamp5_1.7.4安装完成后,解压缩phpcms后将phpcms1剪切出来放到D:\wamp\www\目录下,将phpcms1改名为phpcms。 2、打开WAMP5,启动PHP settings栏目中的short open tag。 3、安装PHP,输入http://localhost/phpcms/install.php进行。 4、解压LocoySpiderV2009SP4_BuilModule文件下的phpcms2008-090109文件下的locoy.php复制到D:\wamp\www\phpcms下。 ? 安装部分完成 一、软件安装 打开火车头软件(LocoySpider.exe) 界面如下图: 二、新建站点 第一步:新建站点(如右图) 二、新建站点 第二步:点击“新建站点”后出现如下界面。填写站点名和站点网址点击“更新” 三、采集网址 新建好的站点会排列在窗口左侧“站点任务列表”中。右击新建好的站点,点击“从该站点新建任务”,出现如下界面。 以本列表为例:/list/zx_yjdt.shtml 点击向导添加后出现如下界面:批量/多页 三、采集网址 三、采集网址 单条网址选项下: 三、采集网址 填写完成后,点击“完成”。则出现以下界面: 注释: 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、视频、flash等),内容丰富并且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的静态页。 5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。 三、采集网址 完成采集网址步骤之后,点击“开始测试网址采集”按钮。会出现如下界面: 三、采集网址 在检查采集连接无误的情

文档评论(0)

秦圈圈 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档