全球大数据企业与技术全景图上infrastructure基础设施.docx

全球大数据企业与技术全景图上infrastructure基础设施.docx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
全球大数据企业与技术全景图上infrastructure基础设施

Hadoop 分布式计算、大数据分析、云计算:是一个由Apache基金会所开发的 HYPERLINK /view/991489.htm \t /_blank 分布式系统基础架构(Apache是世界使用排名第一的Web HYPERLINK /view/899.htm \t /_blank 服务器软件)。 优点 1、Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 2、Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理,Hadoop按位存储和处理数据的能力值得人们信赖。 3、Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 4、Hadoop 还是可伸缩的,能够处理 PB 级数据,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 5、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 6、此外,Hadoop成本比较低。依赖于社区服务,任何人都可以使用,与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。 7、Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。 缺陷 新的功能与稳定性目前还需完善,需要厂商和开源社区的大力支持,同时企业内部对于Hadoop的部署和使用经验不足,必须依赖于厂商的相关技术支持。Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。Hadoop典型应用有搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等,但Hadoop的使用范围远小于SQL或Python之类的脚本语言。 Hadoop核心 Hadoop的??心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。 HDFS HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。 优点 1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没意思。 2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高。 3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。 4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。 5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。 MapReduce MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce的任务 如果计算的数组长度少的话,这样实现是不会有问题的,还是面对海量数据的时候就会有问题。MapReduce会这样做:首先数字是分布存储在不同块中的,以某几个块为一个Map,计算出Map中最大的值,然后将每个Map中的最大值做Reduce操作,Reduce再取最大值给用户。 On-Premise(本地部署),IaaS(基础设施及服务)、PaaS(平台即服务)和SaaS(软件即服务) Hadoop领域3大热门初创公司——Cloudera、Hortonworks及MapR 一、Hadoop On-

文档评论(0)

2017ll + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档