- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台的电力行业大数据分析技术应用
本文通过对基于Hadoop平台的电力行业大数据分析技术研究,构建了结构化和非结构化数据抽取模型,及基于map/reduce的数据分析模型。实现发电、输电、变电、配电、用电等各环节数据的共享融合,在数据挖掘分析上由原来的点状分析,过渡到跨专业的网状数据分析,进一步提高了分析精度和分析效率。
【关键词】Hadoop 电力行业 大数据分析
随着互联网+时代的到来,各行业数据的共享与融合越来越迫切。电力生产关系民生和经济发展,随着电力信息化的发展,涉及发电、输电、变电、配电、用电等各个环节的数据呈爆发性增长,PB数量级的数据,已无法通过传统的数据管理、抽取、分析技术挖掘数据间的多重关联关系,从而更有效的实现电力风险预警,提高生产效率和智能调度功能。
1 Hadoop平台介绍
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统,MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。是用于数据序列化的系统。提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程PRC调用以及简单的动态语言集成功能。
实现了MapReduce编程框架,用于大规模数据集的并行运算。能够使编程人员在不理解分布式并行编程概念的情况下也能方便将自己的程序运行在分布式系统上。
HDFS分布式文件系统,其设计目标包括:检测和快速恢复硬件故障;数据流的访问;简化一致性模型等。
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
Chukwa是基于Hadoop的大集群监控系统,是开源的数据搜集系统。通过HDFS来存储数据,并依赖MapReduce来处理数据。
2 数据抽取分析模型
目前电力行业数据包含结构化数据如常规oracle,MySQL等数据库类型,同时也存在大量log日志文件,e文件等非结构化数据,为能全面有效的实现多业务,多数据综合建模分析,设计如图2所示,数据处理模型。主要由数据抽取、格式清洗和DFS分布式文件系统构成,同时为下一步大数据建模分析打好基础。
数据抽取模块主要负责从原业务系统获得结构化和非结构化业务数据。通过在数据抽取工具中配置前端机器名称、端口号、加密用户名密码、数据表等信息,实现结构化数据的抽取工作。对于日志类文件由于在原服务运行期间日志文件是持续写入状态,因此必须在原系统设置,系统日志按时间节点分割,一般可按具体业务运行情况和日志产生量和产生大小进行设定,避免因日志文件过大或网络繁忙,在抽取时对业务造成影响。
格式清洗模块主要是对原始数据中多种不同配置格式进行统一,特别是对非结构化数据,需定义每个字段的含义和位置以及统一分隔符,同时还会去掉一些记录不完整的坏数据,保证数据的格式统一,信息完成。最后导入HDFS文件系统进行存储。
数据分析通过Map/Reduce操作实现,通过设计业务分析模型,定位此项数据分析所需输入数据,并将数据数据分割成若干独立的块,并根据Inputformat把?Y料读入成一组(key,value)对,然后通过mapper count分给不同的mapper进行处理。再设计模型中,通过设置满足要求的map任务值,并引入哈希算法,将mapper对应初始的(initialkey,initialvalue)生成中间数据集(interkey,intervalue)划分为多个任务,将模值相等的任务丢到统一节点上计算,以实现比较平衡的分类效果。
Reducer对mapper产生的(interk
您可能关注的文档
- 化工工艺中节能降耗技术应用研究.doc
- 化工基础课程教学改革与实践.doc
- 华北克拉通重力剖面重力点位GPS测量精度分析.doc
- 化工园区规划环境风险评价方法与风险管理分析.doc
- 化疗后恶心呕吐辅以音乐治疗效果与观察.doc
- 化工专业气相色谱实验教学思考和改进.doc
- 化疗性静脉炎的预防和护理.doc
- 化痰解瘀汤联合胰岛素治疗2型糖尿病效果观察.doc
- 化痰通络法治疗老年疾病临床分析.doc
- 化学反应动力学的若干前沿课题研究立项报告.doc
- 2025年金肯职业技术学院单招职业适应性测试题库带答案.docx
- 2025年钦州幼儿师范高等专科学校单招综合素质考试题库完美版.docx
- 2025年钟山职业技术学院单招职业适应性考试题库参考答案.docx
- 2025年金华职业技术学院单招职业技能测试题库附答案.docx
- 2025年闽南理工学院单招职业技能测试题库审定版.docx
- 2025年闽南理工学院单招综合素质考试题库审定版.docx
- 2025年闽南理工学院单招职业倾向性考试题库汇编.docx
- 2025年闽南理工学院单招职业倾向性考试题库推荐.docx
- 2025年闽北职业技术学院单招综合素质考试题库1套.docx
- 2025年长沙轨道交通职业学院单招职业技能考试题库一套.docx
最近下载
- 2017年山东省青岛市城阳七年级英语下册 Unit 1-2 复习练习题(无答案)(新版)人教新目标版.doc VIP
- 输变电工程标准工艺(变电工程土建分册)2022版.pdf VIP
- 个人防护用品培训.ppt VIP
- 启动仪式开业典礼模板《启动仪式全程安排及总结》PPT课件.pptx VIP
- 如何做一个出色的班组长.pptx VIP
- 2025年度卫生招聘考试(财务)新版真题卷(附详细解析).docx VIP
- 2025最新乡村医生考试试题库含答案.docx VIP
- 全国突发急性传染病防控技能竞赛笔试复习测试附答案(一).doc
- 如何做一个出色的班组长.pptx VIP
- 560期货交易技术策略系统.docx VIP
文档评论(0)