- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全球大数据企业与技术全景图(上)infrastructure基础设施.
Hadoop分布式计算、大数据分析、云计算:是一个由Apache基金会所开发的分布式系统基础架构(Apache是世界使用排名第一的Web服务器软件)。优点 1、Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。2、Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理,Hadoop按位存储和处理数据的能力值得人们信赖。3、Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 4、Hadoop 还是可伸缩的,能够处理 PB 级数据,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 5、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 6、此外,Hadoop成本比较低。依赖于社区服务,任何人都可以使用,与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。 7、Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。 缺陷 新的功能与稳定性目前还需完善,需要厂商和开源社区的大力支持,同时企业内部对于Hadoop的部署和使用经验不足,必须依赖于厂商的相关技术支持。Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。Hadoop典型应用有搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等,但Hadoop的使用范围远小于SQL或Python之类的脚本语言。Hadoop核心Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。HDFSHDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。优点1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没意思。2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高。3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。MapReduceMapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce的任务 如果计算的数组长度少的话,这样实现是不会有问题的,还是面对海量数据的时候就会有问题。MapReduce会这样做:首先数字是分布存储在不同块中的,以某几个块为一个Map,计算出Map中最大的值,然后将每个Map中的最大值做Reduce操作,Reduce再取最大值给用户。On-Premise(本地部署),IaaS(基础设施及服务)、PaaS(平台即服务)和SaaS(软件即服务)Hadoop领域3大热门初创公司——Cloudera、Hortonworks及MapR一、Hadoop On-PremiseCloudera肯睿Cloudera 公司,它是一家专业从事基于ApacheHadoop 的数据管理软件销售和服务的公司,它希望充当大数据领域中类似RedHat 在Linux 世界中的角色。该公司基于Apach
您可能关注的文档
- 全国各地区农民家庭收支的聚类与判别分析..docx
- 全国各地股权交易机构运营情况..doc
- 全国各地名校2015届高三8-11月化学解析版试卷分项汇编C单元金属及其化合物.doc
- 全国各地近年来违反师德行为案例及分析..doc
- 全国各地名校2015届高三8-11月化学解析版试卷分项汇编N单元物质结构与性质Word版含解析..doc
- 全国名校联盟2016届高三上学期联考地理试题..docx
- 全国名校联盟2016届高三上学期联考试卷(一)政治试题Word版含答案..doc
- 全国地级市2016届高考模拟历史试题分类汇编(专题3中国古代传统文化的主流思想)(解析版)..doc
- 全国名校联盟2016届高三联考试卷(二)政治试题(WORD)..doc
- 全国2014高考历史试题分类汇编P2-启蒙运动.doc
最近下载
- 中小学教师职称评审网上申报部分填写示例.docx VIP
- 人教版五年级上册数学第五单元《等式的性质》(课件).pptx VIP
- 五粮液校园招聘历年真题.pdf
- 7588.2 GB/T7588.2-2020 电梯制造与安装安全规范 第2部分:电梯部件的设计原则、计算和检验.pdf
- [精品]朝花夕拾-名著导读练习学习及答案较全.doc VIP
- 构建和谐师生关系激发英语教学正能量(教学资料).doc VIP
- 森兰SB70系列变频器使用手册V1.8.pdf
- 2024-2025学年江苏省徐州市高一上学期第一次月考数学学情检测试题(含解析).pdf VIP
- 高中函数解题技巧方法总结(高考)(1).pdf VIP
- 2024宜宾五粮液股份有限公司校园招聘试题及答案解析.docx
文档评论(0)