HadoopMPP技术介绍对比与应用..docxVIP

下载本文档

61
0
约5.45万字
约 82页
2018-01-01 发布于贵州
举报
版权申诉

HadoopMPP技术介绍对比与应用..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

HadoopMPP技术介绍对比与应用.

大数据技术介绍（Hadoop与MPP部分,包含与传统技术的区别）版本号：1.0.0目录1概述51.1大数据及大数据技术51.2引入大数据的意义51.3术语、定义和缩略语52大数据技术的引入62.1传统数据仓库数据特征72.2大数据技术应用场景82.3Hadoop与MPP与传统数据库技术对比与适用场景83Hadoop实施指导意见93.1应用场景93.2前期方案设计阶段的建议103.2.1对Hadoop软件选择的建议103.2.2所需硬件设备建议133.2.3组网方式建议153.2.4规划节点规模时需要考虑的因素183.3建设过程中的建议193.3.1对压缩的考虑193.3.2HBase设计203.3.3参数设置建议213.3.4系统调优263.3.5上线前注意事项313.3.6上线后效果评估323.4运维阶段的建议323.4.1任务调度333.4.2监控管理333.4.3告警管理343.4.4部署管理343.4.5配置管理343.4.6安全管理343.4.7日志管理353.5组织和培训建议353.5.1人员安排建议363.5.2培训建议364MPP数据库指导意见374.1应用场景374.1.1数据集市374.1.2数据分级存储（历史库或者明细库）374.1.3ETL384.1.4小结394.2前期方案设计阶段的建议394.2.1软件平台选型建议394.2.2容量评估方法建议414.2.3网络评估方法建议414.3建设过程中的建议424.3.1数据分布规划424.3.2故障与恢复策略规划444.4运维阶段的建议454.4.1系统监控454.4.2告警管理454.4.3SQL监控464.4.4备份恢复464.4.5安全及权限控制464.4.6扩容及数据重分布464.4.7开发工具474.5组织和培训建议475系统集成建议475.1数据互通的建议485.1.1方式分析485.1.2技术实现485.2统一管理495.3透明访问506附录A-大数据技术介绍516.1Hadoop及生态圈516.1.1Hadoop 简介516.1.2Hadoop生态圈系统586.1.3Hadoop1.0 特性606.1.4Hadoop2.0 特性616.1.5Hadoop选型636.1.6Hadoop HA 方案对比646.2MPP数据库676.2.1数据库架构风格676.2.2MPP数据库基本架构686.2.3MPP数据库主要运行机制696.2.4MPP平台技术规范和要点706.3X86服务器平台716.4网络726.4.1InfiniBand726.4.2万兆网756.4.3千兆网766.4.4适用场景766.5硬盘776.5.1硬盘类型介绍776.5.2硬盘比较分析776.5.3硬盘选购建议786.6虚拟化796.6.1概念796.6.2虚拟化技术介绍806.6.3适用场景80概述大数据及大数据技术大数据（Big Data）的定义众说纷纭，从技术讲上它通常具备数据量大(volume)、数据类型多（variety）和数据处理和响应速度快（velocity）的特征。麦肯锡定义大数据为超过了常规数据库软件所能搜集/存储/管理和分析的规模的数据集。大数据处理技术可以认为是处理大数据以便从中获取价值的技术。大数据及其技术正在影响着IT产业，利用Hadoop和关系数据库混搭来解决大数据难题是当前通常采用的方法。引入大数据的意义引入原则传统数据仓库系统已经建设运营十年，新技术的引入不能影响原有的使用感知，需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则：1、先增量后存量。现有的数据处理系统引入大数据处理技术，面临着模型改造、流程改造等一系列的问题，可以首先在新上线应用引入大数据处理技术。2、先边缘后核心。对于原有功能的迁移，可以先迁移非关键的应用。这些应用不涉及到关键生产任务，可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。3、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术，降低实施的复杂度，积累运维经验。通过在大数据处理技术的规划、实施及运维过程中积累经验及教训，不断提升和完善大数据技术的应用水平，逐步拓展大数据技术应用领域。术语、定义和缩略语名词解释Hadoop一个开源的分布式系统基础架构，由Apache基金会开发。基于Hadoop框架，用户可以方便的开发分布式程序，充分利用集群的威力高速运算和存储。MapReduceMapReduce是Hadoop一种并行计算框架，用于大规模数据集的并行运算,其缩略语为MR。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为数据库表，并提供常用的SQL支持。Hive查询引擎将SQL语句转换为Hadoop平台的MapReduce任务运行。Key-value键值对，其