一种基于消息中间件网页实时处理技术.docVIP

一种基于消息中间件网页实时处理技术.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于消息中间件网页实时处理技术

一种基于消息中间件的网页实时处理技术   摘要:针对传统网页采集分析系统在实时性上的不足,提出了一种基于消息中间件的网页实时处理技术。该技术利用消息中间件在消息队列驱动流程中引入并行调度策略,既继承了传统网页处理系统的可靠性,又实现信息抽取、话题聚类和网页分类等模块的分布式并行处理,增强了系统的实时处理能力。实验证明该文提出的技术在舆情实时采集、处理中较传统方法实时性高。   关键词:消息中间件;网页处理;实时性;并行调度;舆情   中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)10-2269-03   A Real-time Web Page Processing Technique Based on Message-Oriented Middleware   ZHOU Cheng, GE Bin, JIANG Lin-cheng   (Science and Technology on Information Systems Engineering Laboratory in National Univ. of Defense Technology, Changsha 410073, China)   Abstract: For the traditional web acquisition and analysis system lacking of real-time, this article proposed a web real-time processing technique based on message-oriented middleware. This technique not only inherits the simple principle of traditional web processing system to ensure the reliability of it; but also brings in parallel scheduling strategies, which make modules, such as information extraction module, topic clustering module and web pages classification module, achieve distributed parallel processing which further enhances the real-time processing capability of system. Experimental results show the proposed technique is more real-time than traditional method.   Key words: MOM; web page processing; real-time; parallel scheduling; public opinion   互联网已经被确立为继报纸、广播、电视之后的第四代媒体。网络的广泛普及、网络信息的爆炸增长和网民参与热情的空前高涨,使得对网络内容的监控和管理变得十分迫切。面对海量的互联网信息,人工监管费时费力,网络舆情监控系统应运而生。   网络舆情是指通过互联网传播的公众对现实生活中某些问题所持的有较强影响力、倾向性的观点和言论,是网民关注的热点,是民众讨论的焦点。网络舆情主要通过新闻评论、BBS论坛、博客、聚合新闻(RSS)、转贴等实现并加以强化,集中反映一个时期网络舆论的中心[1]。网络舆情监控系统是针对网络舆情进行信息采集、话题发现、热度评估、跟踪预警和分析处理的信息系统。在海量信息环境下,如何保证舆情分析的及时性和有效性,分析挖掘相关数据,以满足实用性要求,是舆情分析的难点。同时,舆情分析结果可为真实社会系统与人工社会系统的平行互动提供指导意义。   目前国内外大量学者对网络舆情进行了相关研究。Atkinson等[2]提出了一种近实时的多语种新闻监测与分析系统。该系统集成文本挖掘、机器学习、统计分析等技术,自动确定新闻文章报道的是谁,在何地,做何事,但是文章没有具体谈及如何实现近实时的问题。刘兰等[3]针对国内网络信息采集和保存现状,对网络信息采集方式进行梳理和分析,根据采集对象、采集目的和实施者的不同将网络信息采集归纳为四类,期望对网络信息采集与保存提供参考,但是该文章未针对网络采集信息的分析进行论述,缺乏实用性。丁杰等[4]描述了一个网络舆情监控系统,该系统试图将网络新闻及论坛上的帖子依关键词搜索,并依“事件”聚类,让管理者通过阅读事件可以了解正在发生或已发生的事

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档