浅谈Hadoop技术在铁路信息化建设中的作用.docVIP

下载本文档

8
0
约 5页
2017-01-16 发布于北京
举报
版权申诉

浅谈Hadoop技术在铁路信息化建设中的作用.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈Hadoop技术在铁路信息化建设中的作用.doc

浅谈Hadoop技术在铁路信息化建设中的作用　　摘要：我国铁路信息化建设经过几十年的发展，已经形成几十个不同的应用系统以及中国铁路总公司门户网站和12306铁路客户服务中心等，大大提高了管理和决策程度，但是由于前期缺乏统筹规划，各个系统之间数据处于割裂状态，同时由于各时期采用的开发技术不同，平台的异构性问题也暴露出来。随着数据容量、数据维度的爆炸式增长，传统模式的数据处理方式已经难以满足数据分析、业务处理等在处理效率、响应速度等方面的要求，Hadoop是一个能够对大量数据进行分布式处理的软件框架，能够使用户在不了解分布式底层的情况下，开发分布式程序，充分利用集群的威力高速运算与存储数据。　　关键词：铁路；Hadoop；信息化　　前言　　我国铁路信息化建设经过几十年的发展，已经形成多个较为未稳定的系统，如办公自动化系统（OA）、运输生产计划系统（FOMS）、铁路运输管理信息系统（TIMS）、铁路列车调度指挥系统（TDCS）、铁路车辆管理系统（CMIS）、铁路客票发售和预定系统（PMIS）、机务、工务、电务等管理信息系统以及中国铁路总公司门户网站和12306铁路客户服务中心等，提高了铁路管理和决策的智能化程度，但在铁路信息化建设之初，由于缺乏统筹规划，各信息系统的建设通常以业务部门为界限，各个系统之间的业务协同及数据交互处于割裂状态，随着业务领域的不断拓展，由于各时期所采用的开发技术互不相同，硬件及平台的异构性等原因暴露出铁路在信息化建设方面存在的一些问题：　　（1）由于各个业务信息系统是独立建设的，每个都自成体系，导致各个系统间包括系统内的信息资源不能实现有效整合。系统软件专用，数据库独立，信息难以共享，综合利用难度巨大。　　（2）由于缺乏前期规划，各业务信息系统的协议、编码和接口规范不统一，难以实现信息共享和交换，对突发事件难以快速响应。　　（3）各业务系统的操作系统存在非常大的异构性，操作系统有UNIX、Windows等，也有大型机操作系统。　　（4）数据库管理系统也存在多种不同，如SQLServer、DB2、Oracle等，各部门之间数据资源共享很难实现。　　1 Hadoop分布式系统　　随着数据容量、数据维度的爆炸式增长，传统模式的数据处理方式已经难以满足数据分析、业务处理等在处理效率、响应速度等方面的要求，在这种情况下，大数据与云计算的概念便应运而生。在铁路领域，全国铁路数据同样满足了容量巨大、维度复杂的特点，同时铁路行业对业务响应的要求也满足了价值丰富、响应快速的特性，这些均说明大数据与云计算的方式在该领域同样适用。但是当前我国铁路还停留在传统的数据存储形式，系统设计与实现也停留在传统模式中，因此将大数据、云计算等先进的技术应用于铁路运输领域是十分必要的。　　Hadoop是一个能够对大量数据进行分布式处理的软件框架，能够使用户在不了解分布式底层的情况下，开发分布式程序，充分利用集群的威力高速运算与存储数据。与常规系统相比，Hadoop采用并行执行机制，大大提高了运算效率。并且Hadoop在检验应用层，处理异常错误等方面充分考虑了“硬件故障是常态而非异态”的理念，利用集群实现了高容错率的特性。　　图1 Hadoop集群简化示意图　　通过Hadoop集群视图不难发现，在Hadoop架构中，存在大量的数据节点，每个数据节点都被管理节点按照某种规则分配一定的任务。在这种情况下，所有节点（或者所有活跃节点）进行并行运算，用以解决复杂的大数据问题。我国铁路有6000多个铁路车站，且在铁路运输中的作用各不相同，这就造成了铁路数据存储、业务处理方面存在操作困难、反应迟缓等问题。以车站为单位作为数据节点，或按照某种方式将车站进行分类形成节点区域恰恰能够满足Hadoop架构中的数据节点（DateNode）要求。同时，我国铁路行业现行管理机制较为集中，在中国铁路总公司层面建立相应的名字节点（NameNode）能够保证核心部门对全国铁路运输状况进行统筹规划与管理。　　从软件资源、硬件资源的角度来看，Hadoop大数据框架有两个主要特征：　　（1）异构性　　a.Hadoop所依赖的网络环境可以是异构的。目前对Hadoop集群的应用主要集中在局域网内部。各种类型的局域网，运行不同的协议，这些不同协议的子网互联成广域网。　　b.组成Hadoop集群的服务器硬件资源是异构的。分布式系统由不同硬件类型的服务器组成，导致存储和运算资源分配的不同。　　c.服务节点所处的软件环境是异构的。服务器的操作系统可以运行Windows、Unix、Linux等不同OS。同时，服务所使用的编程语言也可以不同，服务间通过协议接口进行通　　（2）服务节点共享资源　　资源共享是形成分布