大数据处理详细设计说明.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
.. . .. . .. 目录 目录 1. 1.引言 2. 背景与目的 2. 专业术语及说明 3. 参考资料 3. 设计概述 4. 任务及目标 4. 需求概述 5. 运行环境概述 5. 系统详细需求分析 6. 详细需求分析 6. 总体设计方案 7. 系统总体结构 7. 系统模块划分 8. 系统详细设计 9. 系统结构设计 9. 系统功能模块详细设计 10 信息编码设计 11 代码结构设计 11 代码命名规则 12 . 专业学习资料 . .. . .. . .. 维护设计 12 系统的可靠性和安全性 12 系统及用户维护设计 12 系统扩充设计 12 系统配置 13 硬件配置 13 软件配置 13 关键技术 13 关键技术的一般说明 13 关键技术的实现方案 14 10. 测试 14 10.1 测试方案 14 引言 背景与目的 当下互联网和计算机技术越来越多的被各行各业利用,于是产生了海量的数据。进入 . 专业学习资料 . .. . .. . .. 2012 年后,“大数据”一词越来越多的被提及,人们用它来描述和定义信息爆照时代产生的海量数据。 显而易见地,数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可 能还没有意识到,但随着时间的推移,人们将越来越多的意识到数据对企业的重要性。而这就需要有一种框架来分析处理这种大数据。对于电力行业更是如此,电力方面每时每刻都在产生着大量的数据,而对这些数据的分析和利用有着巨大的市场前景和意义。 专业术语及说明 Hadoop :一种分布式基础架构,由 Apache 基金会开发。用户可以在不了解分布是底层细节的情况下,开发分布式程序。充分利用集群的威力运算和存储。Hadoop 实现了一个分布式系统(Hadoop Distributed File System),简称 HDFS。HDFS 有着高容错性的特点,并且设计用来部署在低廉的 (low-cost)硬件上 。而且它提供高传输率 (high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set )的应用 程序。HDFS 放宽了 (relax)POSIX 的要求 ( requirements)这样可以流的形式访问 (streaming access)文件系统中的数据。 Hbase:是一个分布式的、面向列的开源数据库。 Mapreduce:是一种编程模型,用于大规模数据集(大于 1T)的并行运算。当前的软件实现是指定一个 Map 函数,用来把一组键值对映射成一组新的键值对 ,指定并发的 Reduce 函数,用来保证所有的映射的键值对中的每一个共享相同的键组。 参考资料 . 专业学习资料 . .. . .. . .. 【1】相海泉. 大数据时代[J]. 中国信息界, 2013 (5). 【2】李成华, 张新访, 金海, 等. MapReduce: 新型的分布式并行计算编程模型[J]. 计算机工程与科学, 2011, 33(003): 129-135. 【3】谢桂兰, 罗省贤. 基于 HadoopMapReduce 模型的应用研究 [J][J]. 微型机与应用, 2010, 25(3): 4-7. 【4】陈勇. 基于 Hadoop 平台的通信数据分布式查询算法的设计与实现 [D][D]. 北京: 北京交通大学, 2009. 【5】Taylor R C. An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics[J]. BMC bioinformatics, 2010, 11(Suppl 12): S1. 设计概述 ①从 HBASE 中取数据(driver 类)————>②通过 MapReduce 对数据进行第一次处理(Mapper 类) — —— — > ③ 根据应用层的需要, 对处理过的数据再次进行处理 (Reducer 类以及附加类:简单的数学基本函数 、统计、概率等),并且返回给客户端 (预留接口) 任务及目标 数据合成: . 专业学习资料 . .. . .. . .. 1、PI 的常用函数:最大值、平均值等 2、专业函数(与 PI 服务器类似的内置函数) 数据订单: 1、基本的数据挖掘、数理统计函数功能(如统计/概率) 需求概述 因为电力行业在实际生产和应用的过程中会产生大量的数据 ,而这些数据又对电力有着巨大的影响和意义。对这些数据的处理和存储就成为一个迫在眉睫的问题。从这些数据中可以提取很多对于电力行业以后的发展和现今的实际生产有着指导意义的数据 ,利用好这些海量的数据

文档评论(0)

hao187 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体武汉豪锦宏商务信息咨询服务有限公司
IP属地上海
统一社会信用代码/组织机构代码
91420100MA4F3KHG8Q

1亿VIP精品文档

相关文档