基于Hadoop平台交通数据处理系统设计与实现.docVIP

下载本文档

130
0
约3.03千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop平台交通数据处理系统设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop平台交通数据处理系统设计与实现

基于Hadoop平台交通数据处理系统设计与实现　　摘要：随着城市的发展，传统方式存储与处理不断增多的交通数据暴露出诸多问题。为此，设计并实现了一套基于Hadoop的交通数据存储和处理平台。该平台采用HBase数据库存储数据，Mapreduce实现数据并行处理，Web端展示数据。实验结果证实，该平台在数据存取和数据处理性能方面都优于传统处理方式。　　关键词关键词：交通数据；Hadoop；HBase；MapReduce；并行处理　　中图分类号：TP319 文献标识码：A 文章编号：1672-7800（2016）004-0124-02 　　0引言　　随着智能交通城市建设的发展，各种无线设备、导航定位设备产生了海量的交通数据，这些数据具有复杂、多样、动态变化的特性，存在采集和存储标准缺乏以及规范问题[1-2]。如何存储和分析海量的交通数据，使这些数据得到高效利用，为城市交通管理提供数据支持，是智能交通城市建设的重要组成部分。　　传统的大规模数据处理大多采用高性能计算，需要投入较大的资金和时间成本，Hadoop技术的发展在大数据存储和处理上提供了很好的解决方案[3]。HDFS分布式文件系统、MapReduce编程模型、Hive和HBase数据库是Hadoop的关键技术，采用Hadoop技术能够在廉价的硬件设备上以更低的运行成本完成大规模的数据处理[4-5]。本文利用Hadoop集群技术，对龙口市的城市公交车交通数据进行了高效处理并存储到HBase分布式数据中，设计并实现了一个高效实用的城市交通数据存储处理平台。　　1Hadoop 　　ApacheHadoop是一款支持数据密集型分布式应用的开源软件框架，支持在大型集群上运行的应用程序，为应用提供可靠性和数据移动，提供稳定的共享存储和分析系统，其核心功能包括文件系统HDFS（HadoopDistributedFilesystem）和MapReduce软件架构。HDFS提供高吞吐量的数据访问，非常适合在大规模数据集上应用，MapReduce用于大规模数据集的并行运算；HDFS提供存储支持，MapReduce提供数据分析支持。　　ApacheHive是基于Hadoop提供数据概要、查询和分析的数据仓库基础架构。Hive定义了简单的类SQL查询语言，简称HQL，它允许用户通过HQL进行数据查询，可以直接使用存储在Hadoop文件系统中的数据。将HQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。Hive的最佳使用场合是大数据集的批处理作业。　　HBase是Apache组织开发的基于Hadoop的数据查询系统，目标是存储并处理大型数据，能够对大型数据提供实时的读写访问，是Google的bigtable开源实现，是一个高可靠性、高性能、可伸缩的分布式存储系统，具有较好的负载均衡控制及容错性能。　　2系统结构及功能　　城市交通数据存储处理平台可收集多个来源的交通数据并进行处理，完成数据展示。平台由数据存储、数据处理、数据展示3层组成，其架构如图1所示。　　2.1数据存储层　　数据存储层主要用来存储公交浮动车定位器发送的实时定位数据，以及公交卡的刷卡信息及其它有效数据。该层分数据预处理、数据缓存区、数据写入和存储3部分。　　数据预处理模块。实现对各种不同来源的交通数据进行规范化处理，以保证数据的有效性。GPS实时定位数据是进行分析的关键数据。由于数据的发送端设备和载体差异，数据格式会存在一定的差异，需要对接收的数据统一格式。数据格式包括经纬度、瞬时速度、方向、时间戳等主要信息。公交卡数据格式包括卡号、刷卡时间、车次名称、区间站号等数据信息。预处理模块对不符合规范的数据直接排除。　　数据缓存区。GPS客户端由于通信成本以及实际需求，一般以30s-60s为周期发送一次实时数据。为了提高海量数据的批量写入速度，考虑磁盘读写吞吐率的限制，该层主要用来缓存数据，以时间戳为标记，满1h进行一次数据缓冲，即根据时间戳的标记将1h内的数据写入到下一层，并重新开始新的缓冲。　　数据写入和存储。该模块接受缓冲区发送来的数据，以时间戳为标准，自动生成HBase插入数据脚本，以脚本命令执行，写入分布式数据库HBase中，数据库根据时间戳以天为单位建表。当天写入的数据直接追加到当天的表中。　　2.2数据处理层　　由于公交车GPS设备发送的位置信息存在偏移误差，而且与本地路网的坐标体系不一致，所以需要对这些信息进行坐标转换，然后匹配地图。数据处理层主要负责HBase中数据的处理，然后将结果存储到HBase中。　　对大规模定位数据进行道路匹配计算。首先设置MapReduce作业