分布式系统综述及hadoop搭建分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Part = 1 \* ROMAN \* MERGEFORMAT I 论文 分布式系统学习体会与hadoop环境搭建 摘 要:随着人们对计算速度、系统可靠性和成本实效性等要求的不断提高,传统的冯诺依曼体系结构无法满足上述要求,而分布式系统[1](distributed system)是建立在网络之上的软件系统,具有高度的内聚性和透明性,网络的出现使其成为可能并得到飞速发展和应用。本文从分布式系统的定义、特性、优缺点、文件系统等方面对分布式系统经行综述。同时在Part = 2 \* ROMAN \* MERGEFORMAT II部分,对分布式文件系统中的Hadoop展示了环境的搭建和测试。 关键字:分布式,计算机,Hadoop 1、分布式系统的简介 分布式系统[1]有各种定义,大体可以理解为:拥有一个以上的时序即为分布式系统。传统系统,也就是图灵机或者冯诺依曼计算机,只有一个时序。图灵机是串行系统,所有事件顺序发生。冯式计算机作为图灵机的具体实现,通过唯一时钟发生频率,每Tick里只完成单个事件,也只有一个时序。单时序系统的优点是简单可控,通过唯一时序操作数据,可以保证因果固定性,同样的操作必然产生同样的结果,也就是逻辑可控。单时序系统的天然缺陷是吞吐量的制约。为了在单时序系统上提高吞吐量,我们不停提高工业精度,但越来越困难:摩尔定律失效,磁录密度增加缓慢等等。分布式系统是个由多个互相连接的处理资源组成的计算机系统,它们在整个系统的控制下协同执行同一个任务,最少依赖于集中的程序、数据或硬件。这些资源可以是地理上相邻的,也可以是在地理上分散的。分布式系统隐含的共同特征是:场地分布、数据分布、硬件平台多样化、操作系统多样化、应用平台多样化。如果一个系统的部件局限在一个地方,它就是集中式的;如果它的部件在不同地方,部件之间要么不存在或仅存在有限的合作,要么存在紧密的合作,它是分散式的。当一个分散式系统不存在或仅存在有限的合作时,它就被称作网络的;否则它就被称作分布式,表示在不同地方的部件之间存在紧密的合作。在给出分布式系统具体定义的模型中,分布式系统可以用硬件、控制、数据这三个维度加以检验。 2、分布式系统的特性 分布式系统的源头主要有二:一是并行计算机,二是计算机网络。 并行计算机[5]是由一组处理单元组成的,这组处理单元通过相互之间的通信与协作,以更快的速度共同完成一项大规模的计算任务口。而计算机网络则是利用通信设备和线路将地理位置分散、功能独立的多个计算机系统连接起来,以实现资源共享和信息传递的系统。从硬件和软件两方面,分布式系统都源自上述两类系统,具有上面两种系统的特性,但分布式系统也有着自己的特性和目标。分布式系统的四个关键目标是:能让用户方便地与资源连接;透明性;开放性;可扩展性。 a) 能让用户方便地与资源连接 是指用户能够方便地访问远程资源,并以一种受控的方式与其他用户共享这些资源。这里所讲的资源几乎可以是任何东西。 b) 透明性 是指一个分布式系统能够在用户和应用程序面前呈现出单个计算机系统的特征,这样能够方便的管理用户所需数据,处理好负载均衡;分布式的另一个目标是将它的进程和资源实际分布在多台计算机上这一事实隐藏起来。 c) 开放性 是指具有相同的接口规范使得集群计算机能够方便的进行数据操作,数据协同度更高。开放性带来了互操作性和可移植性。对外:体现在统一的接口描述上,用统一的接口描述语言描述一套所有服务器都知道的规则,这样各服务器的交互问题上没什么问题了。具体的接口实现根据各个服务器的情况具体实现,从而把实现和声明进行了有效的解耦。对内:各服务器内部的策略和实现也需要解耦,以免整个服务器是按照实现和声明逻辑实现的,但是服务器内部确实一个整体的,对于分布式的开放性将会大打折扣。 d) 可扩展性 则包括三个方面规模可扩展性——可以方便地把更多的用户和资源加入到系统中去;地域可扩展性——用户、资源之间可以相隔极其遥远;管理可扩展性——分布式系统跨越多个管理机构,但是仍然可以方便地对其进行管理。这三方面都会使系统的运行效率降低,但是这种降低对于分布式系统绝对是值得的。 3、分布式文件系统 分布式系统中的分布式文件系统具有执行远程文件存取的能力,并以透明方式对分布在网络上的文件进行管理和存取。分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,以及Facebook Haystack。 3.1 GFS GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务[1]。 3.2 Hadoop Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodi

文档评论(0)

希望之星 + 关注
实名认证
文档贡献者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档