HadoopMPP技术介绍对比与应用..docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HadoopMPP技术介绍对比与应用.

大数据技术介绍(Hadoop与MPP部分,包含与传统技术的区别)版本号:1.0.0目录1概述51.1大数据及大数据技术51.2引入大数据的意义51.3术语、定义和缩略语52大数据技术的引入62.1传统数据仓库数据特征72.2大数据技术应用场景82.3Hadoop与MPP与传统数据库技术对比与适用场景83Hadoop实施指导意见93.1应用场景93.2前期方案设计阶段的建议103.2.1对Hadoop软件选择的建议103.2.2所需硬件设备建议133.2.3组网方式建议153.2.4规划节点规模时需要考虑的因素183.3建设过程中的建议193.3.1对压缩的考虑193.3.2HBase设计203.3.3参数设置建议213.3.4系统调优263.3.5上线前注意事项313.3.6上线后效果评估323.4运维阶段的建议323.4.1任务调度333.4.2监控管理333.4.3告警管理343.4.4部署管理343.4.5配置管理343.4.6安全管理343.4.7日志管理353.5组织和培训建议353.5.1人员安排建议363.5.2培训建议364MPP数据库指导意见374.1应用场景374.1.1数据集市374.1.2数据分级存储(历史库或者明细库)374.1.3ETL384.1.4小结394.2前期方案设计阶段的建议394.2.1软件平台选型建议394.2.2容量评估方法建议414.2.3网络评估方法建议414.3建设过程中的建议424.3.1数据分布规划424.3.2故障与恢复策略规划444.4运维阶段的建议454.4.1系统监控454.4.2告警管理454.4.3SQL监控464.4.4备份恢复464.4.5安全及权限控制464.4.6扩容及数据重分布464.4.7开发工具474.5组织和培训建议475系统集成建议475.1数据互通的建议485.1.1方式分析485.1.2技术实现485.2统一管理495.3透明访问506附录A-大数据技术介绍516.1Hadoop及生态圈516.1.1Hadoop 简介516.1.2Hadoop生态圈系统586.1.3Hadoop1.0 特性606.1.4Hadoop2.0 特性616.1.5Hadoop选型636.1.6Hadoop HA 方案对比646.2MPP数据库676.2.1数据库架构风格676.2.2MPP数据库基本架构686.2.3MPP数据库主要运行机制696.2.4MPP平台技术规范和要点706.3X86服务器平台716.4网络726.4.1InfiniBand726.4.2万兆网756.4.3千兆网766.4.4适用场景766.5硬盘776.5.1硬盘类型介绍776.5.2硬盘比较分析776.5.3硬盘选购建议786.6虚拟化796.6.1概念796.6.2虚拟化技术介绍806.6.3适用场景80概述大数据及大数据技术大数据(Big Data)的定义众说纷纭,从技术讲上它通常具备数据量大(volume)、数据类型多(variety)和数据处理和响应速度快(velocity)的特征。麦肯锡定义大数据为超过了常规数据库软件所能搜集/存储/管理和分析的规模的数据集。大数据处理技术可以认为是处理大数据以便从中获取价值的技术。大数据及其技术正在影响着IT产业,利用Hadoop和关系数据库混搭来解决大数据难题是当前通常采用的方法。引入大数据的意义引入原则传统数据仓库系统已经建设运营十年,新技术的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则:1、先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。2、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。3、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积累运维经验。通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域。术语、定义和缩略语名词解释Hadoop一个开源的分布式系统基础架构,由Apache基金会开发。基于Hadoop框架,用户可以方便的开发分布式程序,充分利用集群的威力高速运算和存储。MapReduceMapReduce是Hadoop一种并行计算框架,用于大规模数据集的并行运算,其缩略语为MR。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为数据库表,并提供常用的SQL支持。Hive查询引擎将SQL语句转换为Hadoop平台的MapReduce任务运行。Key-value键值对,其

文档评论(0)

2017meng + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档