- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
总体框架
网络舆情监控系统以基础硬件为支撑,海量互联网数据源为采集对象,以标准、规范和安全体系为保障,提供给客户集舆情信息的采集、分析、展示、预警、管理、应急导控处置于一体的监控平台。
系统总体框架由硬件支撑层、数据采集层、应用层和操作层组成。采用面向服务的思想,利用松散耦合的分层方式将系统整体上分为四个层次和两个体系,各层间的界限清晰,功能明确而不交叉,具有较高的可配置性和伸缩性。
硬件支撑层
硬件支撑层所需设备由客户投入建设,主要由服务器(若干)、存储设备、路由器、网络、安全基础设备等构成,一般放置在信息中心的机房中,也可托管于网通或电信机房,为整个系统提供基础的硬件支撑。互联网信息采集设备需接入互联网,内部用户访问可使用局域网。
数据采集层
实现对上万个全国知名网站论坛、网站论坛境外重点网站论坛信息监控;实现对国内外著名博客、微博、贴吧、SNS、QQ群、带文字的视频、手机网站的信息监控
应用层
应用层是整个系统的核心,采用面向服务的思想,为用户输出舆情监测结果和用户对信息的查询、管理等任务。应用层由五大应用平台组成,包括舆情搜索展示平台、舆情管理工作台、应急导控处置平台、用户管理平台和通讯平台,利用Web Services技术为系统升级服务或为其他外部系统提供基于SOAP的远程方法调用接口,用以完成异构系统之间的数据交换和同步。
操作层
系统为操作员提供友好的操作界面,易操作、易使用。
安全保障体系
从技术安全、运行安全和管理安全三方面构建安全防范体系,切实保护系统的可用行、机密性、完整性、抗抵赖性、可审计性、可控性。
标准规范体系
为保证系统有效运行及与后续建设系统有效的集成,在系统建设和运行中,需遵循和制定相关的业务规范、技术标准和运行管理规范。
此外系统还满足高可扩展性和易操作的特性。可根据单位的业务需求变化便于使用。
在技术实现上,本互联网舆情监测系统是采用目前最流行的B/S架构,使用面向对象的JAVA开发语言研发而成,具有高扩展性、高移植性和良好的跨平台性。系统总体架构图如下:
舆情搜索和采集系统
互联网信息采集技术是舆情监控系统的基础技术,考察采集技术优劣有及时性和全面性两个指标,及时性要求重要网站信息的5分钟采集入库,一般性网站信息的30分钟采集入库;全面性要求采集来源能覆盖全国性、地方性及行业性的知名网络,凡对舆论传播有着影响力的新闻站点、知名论坛、博客、微博、视频均需纳入监控范围。此外还要求采集引擎具有可操作性,用户可对采集环节进行调整和优化。
及时性和全面性是一组对立指标。客户自建的网络舆情项目,一般投入有限,设备和网络建设不可能支撑到对整个互联网的监测,而要追求采集的及时性,需采集频率快,势必会减少监控的采集范围,将舆情采集范围更多地优化为具有舆论传播价值的网络媒体,而非整个互联网。本果网络舆情采集引擎,主要帮助客户监测重点舆论发布及传播网站、跟踪传播内容、分析首发媒体及事件传播演变过程,通过信息和数据为舆情预警、研判和应急处置提供支持,我司舆情产品具有以下采集特色及优势:
重点采集
对舆情高发网站和主流网站设置最高采集优先级权重,以5分钟的采集频率采集信息,这些重点网站包括:
地方性、行业性新闻网站及论坛:一般情况下,地方性、行业性新闻网站及论坛是舆情的首发地,以普通网友为发布人,表现为各种爆料求证信息,是舆情的重要监测来源,这类信息的发现有助于传播早期的舆论控制和引导;
全国性的新闻及社区网站:这些网站的用户量大,浏览量大,是舆情最重要的传播渠道,因能快速形成关注和传播,且扩大传播面,如在这类网站上出现报道,也表示舆情事件的传播进入了发展或爆发期,需采取和早期不同的应对和处置办法,也是舆情的重要监测来源;
重点人的网络ID:对于重点人的网络(包括论坛、博客及微博账户)发言和活动, 能代表网上大部分人的言论,或是煽动言论,或是有害言论,是舆情的重要监测源;
自动启动重点采集任务:在设置专题和导控任务后,会自动启动重点采集任务,调整其优先级和采集频率,确保重点任务的完成;
重点文章回复/评论的采集
导控任务采集:追踪文章在网络上的发展动态,
文章是否存在
在各大搜索引擎是否存在快照
点击/回复数量的
热词采集:采集百度热词
采集任务可操作性
用户可手动调整采集任务:
自定义采集频率:用户可自定义网站的采集频率,为不同权重的网站设置不同采集频率;
自主添加采集网站:用户可自行添加采集的网站;
自定义网站权重及优先级:监测网站的权重可维护,用户也可为不同权重网站设置采集优先级;
自定义采集任务:用户不仅可以调整单个网站的采集频率,也可对其采集进程进行管理,关停或暂停网站的采集任务;
自定义微博地址:用户可添加微博地址到采集库,系统还提供导入模板供用户批量导入微博地址。
自主全网搜索添加:在全网搜索功能中
文档评论(0)