流式处理框架在实时交通信息中的应用.docVIP

下载本文档

2
0
约2.25千字
约 4页
2017-04-08 发布于北京
举报
版权申诉

流式处理框架在实时交通信息中的应用.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

流式处理框架在实时交通信息中的应用.doc

流式处理框架在实时交通信息中的应用　　【摘要】流式处理既可以对海量数据实时分析以减少延迟，又可以对海量价值比较低的数据进行预处理再存储，有效节省存储空间，有利于提高后续数据处理的效率。本文在对三种流式处理框架分析的基础上，采用流式处理框架，建立实时交通信息流式处理模型，从数据的实时采集、数据缓冲、流式计算及数据存储方面来进行分析。　　【关键词】流式处理框架交通信息应用　　一、前言　　随着经济的快速发展及城市化进程的加快，机动车的数量越来越多，交通需求与道路设施之间的矛盾愈发尖锐，掌握实时交通信息状况，合理选择出行路线，成为人们出行前不得不考虑的问题。计算机应用系统的不断发展、通信网络技术和传感器的不断进步，数据采集、数据传输能力大大增强，使人类能够获取实时交通信息，如交通实验观测数据、交通导航服务信息、交通传感器网络监控数据、交通实时速度数据、交通摄像机监控数据等，这种在动态环境中产生的信息构成了连续不断的流式数据。先存储后处理是传统的数据处理方式，而这种方式无法满足海量数据实时处理的需求，流式处理应运而生。流式处理既可以对海量数据实时分析以减少延迟，又可以对海量价值比较低的数据进行预处理再存储，有效节省存储空间，有利于提高后续数据处理的效率。　　二、流式处理框架介绍　　1、流式处理Storm。Storm是一个免费开源的分布式实时计算系统，简化了流数据的可靠处理，可用于任意编程语言。使用时，先要设计一个用于实时计算的图状结构，这个图状结构将会被提交给集群，由集群中的masternode（主控节点）分发代码，将任务分配给workernode（工作节点）执行。一个图状结构中包括bolt和spout两种角色，spout负责发送数据流，bolt负责转换数据流，同时bolt可以完成计算、过滤等操作。　　2、流式处理Spark。Spark是一种开源集群计算环境，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark是在Scala语言中实现的。Spark可用来构建大型的、低延迟的数据分析应用程序。Spark在处理前按时间间隔预先将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。　　3、流式处理Samza。Samza是一个开源框架，它是一个分布式流处理框架，专用于实时数据的处理。Samza是在Hadoop基础上建立的，而且使用了LinkedIn自家的Kafka分布式消息系统。Samza可以帮助开发者构建应用、处理消息队列、更新数据库、计数以及其他的聚合、转换消息等等。　　三、实时交通信息的流式处理模型　　对实时交通信息的处理，流式处理框架可以发挥重要作用。利用流式处理框架，建立实时交通信息流式处理模型，主要包括数据采集、数据接入、流式计算和数据存储四个过程。交通数据采集子系统从采集设备上实时地获取交通信息，然后把数据汇总后转发给缓冲系统，缓冲系统为数据传输到计算系统起到缓冲作用，协调采集数据的速率和计算系统处理数据的速率。然后流式计算系统对信息进行相应的实时计算处理，并将计算结果存入存储单元。各个过程分析如下：　　1、数据采集。实时交通信息数据采集主要通过环形感应线圈、雷达、图像传感器、红外线传感器等装置来实现，根据城市路网结构、主要干道交通流历史数据，合理地分布交通流检测装置，可以有效地采集到城市交通网络状况信息。实时交通信息数据采集需要保证采集速度快、可靠性高、能实时监听数据变化。　　2、数据接入。考虑到采集数据的速度和数据处理的速度可能不同步，需要对数据进行缓冲处理，并且要保证延迟性不能太长。为此可以采用分布式发布订阅系统，其中包括一些消息生产者以及消息订阅者，消息生产者主要用于收集数据，多个服务器进行缓冲，而消息订阅者主要对数据订阅。利用这种缓冲处理，有利于控制和优化数据流经系统的速度。　　3、流式计算。流式计算有着实时性要求高、持续计算、数据产生速率不定的特点。数据收集产生的流式数据速率快，需要计算系统能实时计算，有足够的低延迟性，结果反馈需要保证时效性。同时，流式计算环境中大多数的流式数据是不被保存的，且一般只使用一次、易丢失，计算系统需要有容错能力。数据的产生是动态的，速率在前后时刻可能发生变化，因此计算系统要有良好的伸缩性，有效利用资源。在实时场景中，可以引入内存数据库及分布式应用程序协调服务器，尽量保证流式计算有很好的处理效果。　　4、数据存储。根据实时交通信息监测数据，异常检测、异常状况分析、路况分析、下一时段交通流量预测等业务不同的需求对结果进行不同方式的存储处理。　　结论：本文在对三种流式处理框架分析的基础上，采用流式处理框架，建立实时交通信息流式处理模型，从数