基于Hadoop大数据技术的火电厂数据资产全寿命周期管理.docxVIP

基于Hadoop大数据技术的火电厂数据资产全寿命周期管理.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

??

?

??

基于Hadoop大数据技术的火电厂数据资产全寿命周期管理

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

摘要:针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,分析hadoop平台的软件架构、硬件架构、资源管理、功能、大数据的应用内容等,以提高火电企业数据全过程标准化管理能力,增强数据的挖掘、分析和预测能力,提高企业对大数据资产的利用效率。结果表明,典型的工业大数据平台系统架构包括监控设备、数据采集、数据存储、数据管控和数据服务。hadoop大数据架构包括底层基础层、存储层、统一管理层、计算引擎层、能力服务层、工具及增强、应用及接口,共计七个部分。大数据技术的应用包括计算密集型应用,输入、输出的密集型应用,分布式存储与大规模并行计算,实时数据处理与查询分析,数据整合,数据使用,数据服务,数据治理。大数据的治理的内容包括数据采集、数据交换、数据存储、数据清洗、数据查询、数据加工、审计、数据溯源、元数据标记与发现、数据生命周期管理等。

关键词:燃煤火力发电;hadoop大数据库;大数据治理;大数据中心;数据清洗;大数据技术应用

?

引言

传统的燃煤火电厂信息管理为了充分利用和挖掘数据的价值,消除信息孤岛,一般采用不同信息子系统开放数据接口的形式来进行数据共享和调用[1-4]。事实证明仅仅开放数据接口,以期望打通不同信息系统、不同数据库之间的联系,实现数据的深度挖掘和利用,是一条失败的道路[3-6]。因为来自不同信息系统数据的类型、标准、格式、定义、单位、更新频率均有较大的差别,很容易发生数据的错误调用[6-8]。因此,有必要应用hadoop大数据架构来兼容不同类型的数据,形成具有数据采集、交换、存储、清洗、查询、加工、审计、溯源、挖掘、应用的以大数据全寿命周期为核心的智慧企业生态系统。

针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,分析hadoop平台的软件架构、硬件架构、资源管理、功能、大数据的应用内容等,以提高火电企业数据全过程标准化管理能力,增强数据的挖掘、分析和预测能力,提高企业对数据资产的利用效率。本研究的成果有助于了解hadoop大数据平台的软件架构、硬件架构的详细构成,通过基于大数据的数据治理、挖掘和应用,实现火电数据集中、统一、标准化管理,让数据真正成为火电企业的资产和财富。

?

Hadoop大数据平台的架构

以某公司大数据中心建设为例,进行分析。基于hadoop大数据平台,先进行数据治理,在标准化的数据基础上,然后进行系统管理。图1示出典型的工业大数据平台系统架构包括监控设备、数据采集、数据存储、数据管控和数据服务。

图1工业大数据平台系统架构

图2示出hadoop大数据架构包括底层基础层、存储层、统一管理层、计算引擎层、能力服务层、工具及增强、应用及接口,共计七个部分。

(1)底层基础层包括基础类库Common、统一协调层Zookeeper、序列化Avro。

(2)存储层包括分布式文件系统HDFS、混合存储Kudu、分布式NoSQL数据库HBase、列式文件格式Parquent。HDFS用以文件系统的储存,能支持云计算平台,有多个NameNode备机。HBASE用以非关系型数据的存储。Hadoop内核里自带文件存储层HDFS。在存储层,出现了综合了HDFS和HBase优点的Kudu。

(3)统一管理层包括用户安全管理Sentry、资源管理Yarn、记录访问管理RecordService。

(4)计算引擎层包括分布式计算框架MapReduce、内存计算引擎Spark、MPP执行引擎Impala、消息队列Kafka、流处理Storm、文本搜索引擎Solr。MapReduce用以采用分布式系统,廉价地处理海量数据。Solr是一种搜索引擎,用以文本数据查询。Impala用以分析SQL、分析型数据库的低延时高并发查询、列级访问控制。Spark是Hadoop通用处理引擎,用以通用数据处理、快速批处理、机器学习、表级访问控制,Spark将会取代MapReduce成为新一代的通用计算引擎。kafka和Sparkstreaming用以流处理。

(5)能力服务层包括MapReduce管道、结构化数据库或数据仓库Hive、全文检索Search。MapReduce用以磁盘数据处理、对规模要求极高和对磁盘IO敏感的任务。Pig、Hive组件用以实现批处理。

(6)工具及增强包括数据挖掘算法库Mahout、Pig数学处理库DataFu、工作流Oozie、管道管理工具Crunch、编译测试工具Bigtop、部署工具Whirr。

(7)接口包括实时数据传输Flume、数据ETL组件Sqoop、文件访问接口Fuse、WebHDFS、NFS。

(8)应用包括数

文档评论(0)

方圆 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档