基于通信运营商数据的大数据实时流处理系统.docVIP

下载本文档

11
0
约6.72千字
约 11页
2016-09-24 发布于北京
举报
版权申诉

基于通信运营商数据的大数据实时流处理系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于通信运营商数据的大数据实时流处理系统.doc

基于通信运营商数据的大数据实时流处理系统　　【摘要】本文利用流式数据处理框架探索了一种新的基于运营商实时大数据业务系统构建模式。首先，在充分研究了业内实时流式处理技术的发展以及运营商本身实时数据源的特点之后，确定以Flume作为实时采集和分流组件，Kafka作为缓存和多模块通信组件，以Spark Streaming的分布式结构作为数据ETL集群；然后，利用该系统进行了重点区域的人流实时监控的业务，在实施过程中为了提供毫秒级的数据结果流查询能力，采用了Redis组件提供基于内存的Key-Value引擎；最终，通过流式数据处理效率的对比和实时监控的人流效果，我们验证了了这种新的技术架构针对运营商CS域和PS域数据实时处理需求的可行性，结果表明，新的实时业务架构能更加有效的提高从实时采集到业务触发的运行效率，并且为公安部门在重大节假日的区域级人流监控、预警和疏导提供了技术保障。　　【关键词】大数据流处理简单事件处理引擎（PME） Flume Kafka 　　一、引言　　随着网络、通信和传感器应用的飞速发展，尤其是移动通信全面进入移动互联网时代，直接带来通信网络中的数据复杂度、信息量迅速增长，诸多的移动设备实时收集用户各种信息，如位置、喜爱偏好、移动轨迹、血压、体温等，带来数据的规模、种类和关联性等急剧膨胀。“大数据”成为时下各个行业中出现频率最高的关键词之一。思科估算在2015年仅移动网络的数据量将突破6EB/月，相当于亿字节的海量数据；而IDC预计到2020年全世界的数据存储总量将达到35万亿GB。大数据时代的到来使得隐藏在海量数据中的信息开始深刻的影响着人们的日常生活。当顾客在网上购物时，推荐系统会根据从海量数据中挖掘出的信息向其推荐适合的商品；当乘客出行时，打车软件又替他们搜索周围空闲出租车并选择最优车辆来提供服务；当病人看病时，医生又会根据该病人的日常医疗数据制定最优的治疗方案。　　而随着4G时代的到来，移动通信业务已经正式全面进入移动互联网时代，飞速发展的移动网络带宽直接带来繁杂的应用和用户行为，而通信网络中的数据复杂度、信息量都随之迅速增长，通信运营商所能掌握的数据量级与日俱增，导致数据处理的复杂度和运算量要求都随之有了更高的要求，传统数据库体系的数据处理能力受到了极大的挑战，面对海量数据处理需求和更低的时延性限制要求，传统数据系统投入的CPU计算能力、内存响应和吞吐、网络带宽都有着巨大的基准，且在高安全性，多中心的发展趋势下面临诸多的瓶颈。　　大数据时代的到来使单节点的计算模式已经不能满足数据处理的需求，分布式数据处理与存储系统逐步成为大数据平台首选的架构，包括Hadoop，MongoDB等开放型的大数据技术成为了众相研究的热点。而Hadoop大数据平台主要基于静态数据文件的并行处理，虽然在海量数据吞吐、计算、存储方面有着极高的效率，但是实时性较差，属于高吞吐，高并发，高时延的架构，对于小文件的处理性能一直是其不可回避的问题，故针对一些实时性较高的数据处理和使用场景下无能为力。基于这样的原因，面对动态数据处理的需求，实时流式数据处理技术应运而生。　　随着针对数据流的研究逐渐进入学术界，大规模动态数据集（也称为实时数据流）成为研究及工程人员争相探索的热点领域[12]。而实时流式数据具有海量性、实时性和动态变化性三个基本特点，基于这些特性，数据研究领域内发展了诸多的研究方向。如流式数据处理的数学工具研究[11]，研究如何保证在数据流处理过程中的QoS服务质量[2]，研究利用滑动窗口来实现实时流数据处理[1][8]，基于实时性流数据查询算法的优化[3]，研究数据流的分布式处理和最后聚集[6]，流式数据的实时分类[9]。也有融合流处理技术在其他科技领域来完成复杂性的计算，如射频标签领域的实时数据处理[4]，高速网络中的数据流模型设计[7]，数据流量变化的处理模型[10]。而在大数据应用领域，更多的企业在开发如何利用流处理技术来构造一个企业级的实时性数据业务平台[5] 　　本论文所有的研究都集中在如何构造基于运营商大数据流处理系统方面，主要围绕实时性的业务场景下，如何从数据产生，数据采集，到数据流的处理，再到实时业务规则匹配的过程中寻找最佳流式数据平台的架构展开研究。全文采用总分结构给出了实时流处理系统的构建思路：在第二节，对实时流处理系统的整体架构进行整体性阐述；第三节主要阐述采用Flume+Kafka+SparkStreaming架构来有效解决Hadoop系统对于小数据的流式处理效率的提高；在第四节中，通过该系统成功实现针对固定区域进行实时人流监控的业务场景，最后，针对整个系统对于流式处理的效率和实时监控效果进行总结，并形成研究结论和下一步的研究计划。　　二、流式大数据系统综述