辽宁省水利舆情信息监控系统设计和实现.docVIP

辽宁省水利舆情信息监控系统设计和实现.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
辽宁省水利舆情信息监控系统设计和实现

辽宁省水利舆情信息监控系统设计和实现   摘要:随着新媒体的不断发展,对热点舆情监测的需求越来越紧迫,根据水利部门工作特点和辽宁省水利信息化建设的实际情况,开发了利用搜索引擎技术、文本处理技术、知识管理方法,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,实现用户对辽宁水利网络舆情监测和热点事件专题追踪的水利舆情信息监控系统。   关键词:水利舆情;实时监控;搜索引擎   1背景   随互联网技术不断发展,继报纸、广播、电视之后网络媒体已被公认为第四大媒体,更有赶超和替代前者之趋势成为反映社会舆情的主要载体之一。网络舆情形成迅速,传播范围广泛,其中一些舆情带有网民的主观性,未经验证直接发布于网络上对社会影响巨大。水利部门作为服务性行业与大众生活息息相关,其新闻一直都是网络舆论关注的焦点,及时发现并处理好水利舆隋信息是对新时期水利工作的新要求。   本着对国家和人民负责的态度,辽宁省水利舆隋信息监控系统应运而生,以此建立高标准、起点高的全天候全方位网络信息监控,以先进的技术手段对境内外互联网网站的内容进行监测,变事后处理为事前控制,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。   2系统建设目标   本系统以信息采集为核心,运用内容管理、知识管理、信息分类,完成水利舆情监控和热点追踪等功能需求,实现对互联网舆情中辽宁水利方面信息的监管、监测,即时、实时发现信息。   建设目标包含以下几个方面:   1)监测整个互联网内关于辽宁水利的相关报道,及时发现不良信息。   2)监测地方媒体关于辽宁水利的评论或负面报道。   3)及时了解掌握最新重大事件。准确收集关注需要的舆情信息。   4)借助技术手段,为早发现、早知道提供帮助。   5)追溯查询网络重点消息内容的传播途径。   3系统工作流程   通过系统的采集与分析功能对互联网有关报道或评论辽宁水利的各个方面的新闻或敏感言论做到及时返现、及时处理。   1)信息采集:完成互联网中水利舆情的信息实时监测、采集、内容提取及排重;   2)信息处理:实现对从互联网中抓取的水利舆情信息进行自动分类聚类、主题检测、专题聚焦等;   3)信息服务:将采集并分析整理后的舆情信息提供辅助处理信息服务,如提供舆情信息简报服务、追踪已发现的舆情焦点等。   系统既支持指定网站新闻、博客、论坛、贴吧的采集监控,又支持通过关键词对整个互联网进行监控。(包括论坛、博客、贴吧)   4系统关键技术   1)信息抽取技术   网页是组成互联网的基本数据单位元,是各种面向互联网的应用系统最原始的数据源。网页内部含有大量噪音信息,如何从网页中有效地提取有价值的内容成为影响数据处理效果的关键。   2)重复识别技术   采用动态词典,将词编码成数字ID序列,为了控制动态词典容易膨胀,又设计了词典溶解技术,保证很高的访问效率。   3)内存池技术   采用了内存池,先在内存中建索引,再写至磁盘,数据在内存中进行二次压缩,保证了内存新能优化。   4)超链分析技术   采集最主要的依据就是URL,而任何一个网页中又包含了若干互相的链接,这就对URL寻址带来了很大程度上的干扰性,所以系统采集到第一个页面后就把相关的信息进行了智能识别。   5)智能化处理技术   智能化处理技术要解决的核心问题是计算机对信息“内容”的理解。   5系统组成结构   整个系统分为四个主要子系统。分别是信息采集系统,智能分析系统,信息检索系统,数据发布系统。   1)信息采集系统   主要用于实时监控指定互联网上各类新闻站点的敏感信息、以及有害信息的网站。模块可以自动执行,无须人工干预。根据网站的特点,将网站分为重点监控和普通监控,对于重点监控系统采取循环搜索的方式,对于普通监控只要在模块中,设定好启动、结束的时间,时间一到搜索引擎服务器会自行启动搜索任务。搜索引擎将按照多种搜索策略并提供各种方式各种逻辑组合查询(包含“and”、“or”、“not”、“(”、“)”的组合逻辑关系及“一”、“%”等通配符)统计和处理。系统支持简体和繁体同时查询系统,提供各种报表打印功能。系统支持新闻、博客、论坛、贴吧的采集及监控。   2)智能分析系统   智能分析系统是整个系统的关键组成部分,其主要作用是对信息采集系统采集下来的数据,进行自动智能分析。自动分析功能包括:自动生成热点,自动区分正负面信息,自动分类,自动标记重复(转载)文章,自动生成统计图表等功能。可以根据发表内容出处权威度、时间、密集程度等参数,判断出给定时间段内的热门话题。使用内容主题词组和回帖数进行综合语义分析,识别敏感话题。判断新采集到的文章、帖子的话题是否与已有内容相同,根据文档内

您可能关注的文档

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档