流式处理框架在实时交通信息中的应用.doc 4页

  • 1
  • 0
  • 0
  • 约2.25千字
  • 2017-04-08 发布

流式处理框架在实时交通信息中的应用.doc

文档工具:
    1. 1、本文档共4页,可阅读全部内容。
    2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
    3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
    4. 文档侵权举报电话:19940600175。
    流式处理框架在实时交通信息中的应用.doc

    流式处理框架在实时交通信息中的应用   【摘要】 流式处理既可以对海量数据实时分析以减少延迟,又可以对海量价值比较低的数据进行预处理再存储,有效节省存储空间,有利于提高后续数据处理的效率。本文在对三种流式处理框架分析的基础上,采用流式处理框架,建立实时交通信息流式处理模型,从数据的实时采集、数据缓冲、流式计算及数据存储方面来进行分析。   【关键词】 流式处理框架 交通信息 应用   一、前言   随着经济的快速发展及城市化进程的加快,机动车的数量越来越多,交通需求与道路设施之间的矛盾愈发尖锐,掌握实时交通信息状况,合理选择出行路线,成为人们出行前不得不考虑的问题。计算机应用系统的不断发展、通信网络技术和传感器的不断进步,数据采集、数据传输能力大大增强,使人类能够获取实时交通信息,如交通实验观测数据、交通导航服务信息、交通传感器网络监控数据、交通实时速度数据、交通摄像机监控数据等,这种在动态环境中产生的信息构成了连续不断的流式数据。先存储后处理是传统的数据处理方式,而这种方式无法满足海量数据实时处理的需求,流式处理应运而生。流式处理既可以对海量数据实时分析以减少延迟,又可以对海量价值比较低的数据进行预处理再存储,有效节省存储空间,有利于提高后续数据处理的效率。   二、流式处理框架介绍   1、流式处理Storm。Storm是一个免费开源的分布式实时计算系统,简化了流数据的可靠处理,可用于任意编程语言。使用时,先要设计一个用于实时计算的图状结构,这个图状结构将会被提交给集群,由集群中的masternode(主控节点)分发代码,将任务分配给workernode(工作节点)执行。一个图状结构中包括bolt和spout两种角色,spout负责发送数据流,bolt负责转换数据流,同时bolt可以完成计算、过滤等操作。   2、流式处理Spark。Spark是一种开源集群计算环境,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark是在Scala语言中实现的。Spark可用来构建大型的、低延迟的数据分析应用程序。Spark在处理前按时间间隔预先将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。   3、流式处理Samza。Samza是一个开源框架,它是一个分布式流处理框架,专用于实时数据的处理。Samza是在Hadoop基础上建立的,而且使用了LinkedIn自家的Kafka分布式消息系统。Samza可以帮助开发者构建应用、处理消息队列、更新数据库、计数以及其他的聚合、转换消息等等。   三、实时交通信息的流式处理模型   对实时交通信息的处理,流式处理框架可以发挥重要作用。利用流式处理框架,建立实时交通信息流式处理模型,主要包括数据采集、数据接入、流式计算和数据存储四个过程。交通数据采集子系统从采集设备上实时地获取交通信息,然后把数据汇总后转发给缓冲系统,缓冲系统为数据传输到计算系统起到缓冲作用,协调采集数据的速率和计算系统处理数据的速率。然后流式计算系统对信息进行相应的实时计算处理,并将计算结果存入存储单元。各个过程分析如下:   1、数据采集。实时交通信息数据采集主要通过环形感应线圈、雷达、图像传感器、红外线传感器等装置来实现,根据城市路网结构、主要干道交通流历史数据,合理地分布交通流检测装置,可以有效地采集到城市交通网络状况信息。实时交通信息数据采集需要保证采集速度快、可靠性高、能实时监听数据变化。   2、数据接入。考虑到采集数据的速度和数据处理的速度可能不同步,需要对数据进行缓冲处理,并且要保证延迟性不能太长。为此可以采用分布式发布订阅系统,其中包括一些消息生产者以及消息订阅者,消息生产者主要用于收集数据,多个服务器进行缓冲,而消息订阅者主要对数据订阅。利用这种缓冲处理,有利于控制和优化数据流经系统的速度。   3、流式计算。流式计算有着实时性要求高、持续计算、数据产生速率不定的特点。数据收集产生的流式数据速率快,需要计算系统能实时计算,有足够的低延迟性,结果反馈需要保证时效性。同时,流式计算环境中大多数的流式数据是不被保存的,且一般只使用一次、易丢失,计算系统需要有容错能力。数据的产生是动态的,速率在前后时刻可能发生变化,因此计算系统要有良好的伸缩性,有效利用资源。在实时场景中,可以引入内存数据库及分布式应用程序协调服务器,尽量保证流式计算有很好的处理效果。   4、数据存储。根据实时交通信息监测数据,异常检测、异常状况分析、路况分析、下一时段交通流量预测等业务不同的需求对结果进行不同方式的存储处理。   结论:本文在对三种流式处理框架分析的基础上,采用流式处理框架,建立实时交通信息流式处理模型,从数

    文档评论(0)

    • 内容提供方:yingzhiguo
    • 审核时间:2017-04-08
    • 审核编号:6232050212000240

    相关文档

    相关课程推荐