网络舆情监测系统采集子系统使用说明书.docVIP

网络舆情监测系统采集子系统使用说明书.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
采集子系统使用说明书 PAGE 6/ NUMPAGES 8 保密资料,请勿传播 网络舆情监测系统采集子系统使用说明书 目 录 TOC \o 2-3 \h \z \u 1. 概述 2 2. 采集子系统的工作流程图 2 3. 采集子系统组成部分 3 4. 后台处理进程 8 概述 舆情系统的首要任务就是采集信息,网络舆情采集子系统可以对任意目标网站进行自动采集,将采集的信息保存到数据库,以便对其进行分析,查看及处理;网络信息采集子系统支持任意的主流关系型数据库,如Oracle, IBM DB2, MS SQL Server, MySQL, Sybase以及文件型数据库Access等。我们的舆情系统采用MySQL数据库。 采集子系统的工作流程图 采集子系统工作流程图 采集子系统组成部分 网络信息采集系统 主要由网页探索器(分析网页),任务编辑器(配置任务),任务执行器(执行任务),数据库查询器(查看数据),数据变形脚本测试器(测试变形脚本),组合生成器等组成。主界面如下图所示: 网络信息采集系统主界面 任务调度代理器 负责调度各个网站的调度任务。 (1)安装在软件安装目录下(C:\Program Files\WebDataMiner Operation\ScheduleAgent.exe),桌面也会生成相应的快捷方式,启动后,它的工作是调度本节点负责的网站调度任务,如下图 任务调度代理器安装后目录 任务调度代理器界面 (2)设置网站的调度信息:设置该网站什么时候开始运行,在哪部或哪几部机器上运行,运行时同时启动多少进程,每天运行多少次等信息。 关于调度模式 调度模式:设置运行频率,每天运行多少次,将其内部参数在调度任务的名称中表达出来,一目了然。 关于运行模式 运行模式:设置运行的采集服务器及同时启动的进程,分为以下四种运行模式: 单节点单进程:在一台采集服务器上运行,启动一个采集程序,适用于内容较少的网站 单节点多进程:在一台采集服务器上运行,同时启动多个采集程序,加快采集速度 多节点单进程:需要选择采集服务器组(多台采集服务器组成),在一个服务器组中运行,组中的每台服务器分担不同的采集任务,达到分布式采集,每台采集服务器启动一个采集程序 多节点多进程:需要选择采集服务器组(多台采集服务器组成),在一个服务器组中运行,组中的每台服务器分担不同的采集任务,达到分布式采集,每台采集服务器同时启动多个采集程序,大大加快速度,适用于入口URL特别多的情况,如搜索引擎需要搜索的关键词特别多。适用于搜索类型的网站。 在浏览系统设置各个网站的调度信息,如下图: 各网站调度任务列表 弹出对话框自动关闭器 在网页采集过程中,有些网站会弹出对话框,影响采集程序工作,将弹出对话框的关键词设入此程序中,则会自动关闭弹出对话框,让采集程序继续工作。如下图所示: 弹出对话框自动关闭器安装后目录 弹出对话框自动关闭器的配置文件可以在同一局域网内共享,达到修改一处其它地方也跟着修改的目的, 如下图所示: 弹出对话框自动关闭器配置文件 设置弹出对话框内容:启动此程序后,点击edit,填写弹出对话框的内容,等号左边填写对话框的标题关键词(右上角顶端),等号右边填写对话框中内容的关键词(一般在对话框的中央)。 弹出对话框自动关闭器主界面及编辑界面 采集配置 采集配置分为核心配置(Core_Tasks),系统配置(System_Tasks),WMT单独配置(WMT_Tasks)及用户配置(User_Tasks),放置在采集服务器的目录如下图所示: 采集服务器目录结构 核心配置(Core_Tasks):这里是13种不同的配置模板,配置的具体参数存储在数据库中,一般情况下不需要修改这里的模板,如果网站结构变了,只需在浏览系统中修改具体网站对应数据库中的具体配置参数,支持大部分的网站

文档评论(0)

pehalf + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7201060146000004

1亿VIP精品文档

相关文档