基于Hadoop的云计算在清分系统中的应用.docVIP

下载本文档

4
0
约8.22千字
约 13页
2016-09-11 发布于北京
举报
版权申诉

基于Hadoop的云计算在清分系统中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop的云计算在清分系统中的应用.doc

基于Hadoop的云计算在清分系统中的应用　　【摘要】针对轨道交通行业客流量逐年增大而带来的大数据和在清分系统中采用大中型计算机和关系型数据库导致成本高与容错低的问题，本文首次提出了采用Hadoop云计算解决该问题的一个技术途径，包括系统设计与实现以及测试结果等。实践表明，于Hadoop的云计算完全适用于轨道交通售检票清分系统的处理实时数据业务和非实时数据业务，具有成本低，容错好，运行稳定和效率高的优点，硬件投资仅占单台服务器的十分之一，其扩展性与容错性均优于单台服务器。　　【关键词】Hadoop;云计算;清分系统;大数据　　Abstract：According to the problems of big data caused by yearly increased rail transit passenger flow and cost as well as fault tolerance of using large and medium scale computers and RDB in the ACC system，this paper presents a technical way，including system design and implement as well as testing results and so on，to solve the problems based on Hadoop cloud computing technology at first.Practice indicates that cloud computing based on Hadoop is totally suitable for real time and non-real time data processing services in the ACC system of rail transit Automatic Fare Collection system（AFC）with advantages of lower cost，better fault tolerant capability，stable operation as well as higher efficiency.Covered hardware investment is only a tenth of single server，but its expansibility and fault tolerance are both superior to single server. 　　Key word：Hadoop;cloud computing;Automatic Clearing Collection;big data 　　1.引言　　为了解决交通拥堵和绿色出行，各城市都在建设包括地铁在内的轨道交通。一个城市的轨道交通往往不是由一个运营公司运行，一个乘客从起点到终点常常经历多条地铁线路，乘车费就要在所经历的线路运营公司之间进行分配。清分系统就承担该清算的功能，实现轨道交通所有线路之间以及轨道交通线路与“一卡通”结算中心系统之间进行票务清算与分帐，是运营商的一个核心系统。以深圳为例，目前已有5条地铁线路，由3个运营商运营，每天承载大约200多万名乘客。清分系统负责所有线路票款的收集，统计，处理，会产生大约2GB的原始数据文件。加工处理并经过压缩存放数据库后，每天会产生6-8GB的数据量。这些数据有的保留半年，有的会长期保留。可见，清分系统生成庞大的数据量，达到PB级数据。为了满足清分系统对处理数据的要求，目前在国内外均采用耗资几百万元的大中型计算机和关系型数据库，如Oracle。但是，经过作者对清分系统数据计算的大量调查研究后发现，CPU利用率低，因为清分系统的数据加工极大多数是进行分拆，重排和组合等操作，计算的工作量很小，非常适合采用具有高容错性的由PC机组成的分布式云计算，成本将大幅下降，容错性好且运行稳定。　　清分系统的数据可分为实时数据和非实时数据。实时性数据主要包括客流数据，票卡及票库数据，设备状态数据和运营模式数据以及联机数据等。非实时数据，也称批处理数据主要包括现金收益数据，电子收益数据和各类报表数据等。实时性，精确性，高容错性和量大是清分系统数据的四大特殊性。用云计算处理大数据量被公认为最有效的方式[1-9]。目前大数据量处理平台有Twitter的Storm，Yahoo的S4，Apache的Hadoop，UC Berkeley AMPLab的Spark，NokiaDisco，LexisNexis的HPCC等。作者选用开放式的Hadoop作为清分系统大数据处理的平台。Hadoop[