云存储及云计算使用(运维).docx

下载文档 降价啦

5
0
约1.36万字
约 17页
2018-01-05 发布于湖北
举报
版权申诉
保障服务

云存储及云计算使用(运维).docx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于云存储使用情况的探讨和分析版本历史版本号修改日期修改人审批日期审批人版本说明/变更理由/变更内容V1.0.2013-4-1赵强首发变更说明：C：Create，初始创建；A：Add，增加内容；M：Mod，修改；D：Del，删除一、Hadoop的介绍及优缺点分析：31、读写性能和数据安全32、易于扩展的集群架构33、有效分散集群压力44、高效的大数据分析4二、目前使用情况及反馈51、目前线上Hadoop使用情况52、针对目前线上环境的分析53、关于Hadoop集群服务器的选用74、关于nineCloud85、HBase86、监控10三、HBase和Oracle10四、HDFS作为分布式存储的使用可能性分析13五、成功案例分析14六、发展方向151、SaaS方向152、数据挖掘方向17一、Hadoop的介绍及优缺点分析：Hadoop一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统 File System），简称HDFS。Hadoop拥有功能丰富的子项目，其中包括HBase、Hive、ZooKeeper等功能各异的子项目，灵活的使用这些项目可以轻松的做到云计算平台的构建。1、读写性能和数据安全Hadoop都是基于HDFS文件系统，HDFS可以有效的提高系统的吞吐量，减少系统等待时间。HDFS是以磁盘为存储单位的，比如有三台服务器，每个服务器有三块硬盘，对于HDFS等于有九个写入单元，而传统的基于服务器的分布式存储等于只有三个写入单元。而且HDFS通过数据块进行备份的数据冗余机制，磁盘底层不需要而且不建议组建RAID，所以在可使用的磁盘空间上得到了更进一步的提升，而读写性能跟组建注重读写的RAID 0后的效果相同。HDFS对于磁盘读写速度的提升和对数据安全性的提升如下：磁盘读写速度（RAID0=HDFSRAID[1+0]RAID5RAID1）磁盘数据安全（RAID1=HDFSRAID[1+0]RAID5RAID0）由此可见，HDFS可以达到RAID1的数据冗余和RAID0的高速读写。在最新版本（测试版本或者第三方的商业版本）的Hadoop中，Hadoop提出了一个新的Name NodeHA功能，利用该功能可以有效地规避老版本的Name Node节点单点问题。2、易于扩展的集群架构而且Hadoop中的Data Node方便扩展，可以在不停止服务的状态下动态的添加新的Data Node节点进入集群，而且加入后也不需要重启整个集群，只需要正常配置Data Node节点并启动该节点，Name Node可以自动将该节点加入集群。为了方便集群启动时可以正常启动新加入的Data Node需要对Name Node服务器上的hosts文件及slaves文件进行修改。3、有效分散集群压力Hadoop采用动态存储资源分配，可以将数据更平衡的分布于不同的Data Node节点，防止出现数据不平衡而造成部分Data Node节点请求过多，而其它Data Node节点没有请求的情况。就算有新的Data Node节点加入集群，Hadoop也可以通过一条命令简单的做到数据的重新平衡。当然这个操作最好在使用量低的夜间进行。Hadoop的数据的交换是不经过Name Node节点的，Name Node上保存的文件是直接从Data Node上收集而来，所以当用户使用Hadoop集群上的数据时，是直接从Data Node获取数据，这样做使得Name Node的压力得到缓解。而且最新版的Hadoop还支持在一个Hadoop集群中分别创建多个Name Node节点，每个Name Node节点分别管理整个HDFS空间的一部分。使HDFS中的数据做到有效的隔离，并且当一个Name Node节点出现问题，不至于影响到整个集群中数据的访问。4、高效的大数据分析HBase作为Hadoop的一个子项目，主要用于数据的存储。HBase适合于非结构化数据存储的数据库。与常用的数据库不同的是HBase基于列的而不是基于行的模式。由于HDFS的特点，所以HBase非常适合大数据量的数据分析。系统架构上和Hadoop相类似同样在进行架构的扩展上十分的方便，当出现存储空间不足的情况时，只需要添加进去新的Data Node节点就可以了。由于HBase是基于列的数据库，所以配合Hive可以发挥BI数据库的功能以达到数据分析的作用。加上HDFS分布式存储的底层支持，使得其在进行数据分析、数据挖掘上有一定的优势。但是Hive虽然提供了高级SQL的支持，但是对于专业的BI数据库上还略有不足针对BI/BO工程师不是十分友善。HBase于ZooKeeper等项目的组合应用，可以保证HBa