- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第2章分布式计算编程基础《大数据技术基础教程》学习目标/Target了解分布式系统及分布式计算架构了解分布式文件系统掌握CAP理论章节概述/Summary随着使用传统计算机语言硬编码方式设计的HPC程序越来越不受青睐,Hadoop和Spark这样的分布式软件框架应运而生,推动了适用于大规模HPC系统的高效程序发展。受分布式计算原理的启发,诸如MapReduce这样的函数式编程语言模型可以通过Hadoop和Spark在HPC集群上轻易地实现。本章主要介绍分布式系统、分布式计算架构、分布式文件系统和CAP定理目录/Contents01分布式系统分布式计算架构02分布式文件系统CAP定理03042.1分布式系统2.1分布式系统分布式系统是一种计算机网络化布局,各个(计算机)节点间的信息交流通过复杂的消息传递接口来实现。分布式系统主要用来处理那些往往需要几百台计算机协同才能处理和完成的数据集上的问题。多进程进程通信独立的地址空间2.1分布式系统在分布式系统的构建中,无论分布于各个地区还是建在同一座建筑物内,都要面对以下几个挑战。程序并发缺少中央时钟独立故障2.2分布式计算架构2.2分布式计算架构分布式系统是分散在网络中多台机器上的复杂软件组件。这些系统需要进一步组织分工,以求其复杂性能够被理解。分层架构基于对象的架构数据中心架构基于事件的架构2.3分布式文件系统2.3分布式文件系统2.3.1分布式文件系统需求离线分析系统分布式文件系统的发展已成为识别分布式服务设计中诸多挑战和陷阱的一个起点。在其发展的早期阶段,已经实现了访问透明和位置透明。性能、可扩展性、并发控制、容错和安全要求也在其后续开发阶段中得以满足。(1)透明性: 访问透明 位置透明 移动透明 性能透明 扩展透明2.3分布式文件系统2.3.1分布式文件系统需求离线分析系统(2)并发文件更新(3)文件复制(4)硬件的异构性(5)容错(6)一致性(7)安全性(8)效率性2.4CAP定理2.4CAP定理CAP定理又称CAP原则,指的是在一个分布式系统中,Consistency(一致性)、Availability(可用性)、Partitiontolerance(分区容错性),最多只能同时三个特性中的两个,三者不可兼得.2.4.1CAP的定义Consistency(一致性):“allnodesseethesamedataatthesametime”,即更新操作成功并返回客户端后,所有节点在同一时间的数据完全一致,这就是分布式的一致性。一致性的问题在并发系统中不可避免,对于客户端来说,一致性指的是并发访问时更新过的数据如何获取的问题。从服务端来看,则是更新如何复制分布到整个系统,以保证数据最终一致。2.4.1CAP的定义Availability(可用性):可用性指“Readsandwritesalwayssucceed”,即服务一直可用,而且是正常响应时间。好的可用性主要是指系统能够很好的为用户服务,不出现用户操作失败或者访问超时等用户体验不好的情况。2.4.1CAP的定义PartitionTolerance(分区容错性):即分布式系统在遇到某节点或网络分区故障的时候,仍然能够对外提供满足一致性或可用性的服务。分区容错性要求能够使应用虽然是一个分布式系统,而看上去却好像是在一个可以运转正常的整体。比如现在的分布式系统中有某一个或者几个机器宕掉了,其他剩下的机器还能够正常运转满足系统需求,对于用户而言并没有什么体验上的影响。2.4.2CAP定理证明N1、N2正常运作N1和N2通信网络出现故障2.4.3取舍策略CAP三个特性只能满足其中两个,那么取舍的策略就共有三种:CAwithoutP:CPwithoutA:APwihtoutC:本章小结本章主要介绍了分布式计算编程的基础概念,包括分布式系统、分布式计算架构、分布式文件系统,以及CAP理论。通过对本章的学习,了解分布式编程的基本需求和解决方法,理解CAP理论的基本含义和取舍策略。以上相关理论将在后期的实践中得以印证。
您可能关注的文档
- 大数据技术基础教程 课件 第3章 大数据处理框架Apache Hadoop.pptx
- 大数据技术基础教程 课件 第4章 分布式文件系统HDFS.pptx
- 大数据技术基础教程 课件 第5章 分布式数据库HBase.pptx
- 大数据技术基础教程 课件 第6章 分布式计算框架MapReduce.pptx
- 大数据技术基础教程 课件 第7章 数据仓库Hive.pptx
- 大数据技术基础教程 课件 第8章 流计算Spark Streaming.pptx
- 大数据技术基础教程 课件 第9章 数据可视化.pptx
- 大数据技术基础教程 课件 第10章 基于大数据的电商精准营销.pptx
- 大数据技术基础教程 课件 第11章 好友推荐案例分析.pptx
文档评论(0)