- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE
PAGE 5
《软件工程》社会实践
分布式系统中排序算法以及应用案例设计报告
学号: 2014107326 姓名:侯明兰
算法需求分析
1. 分布式排序算法的排序过程为:在p台已经赋予序号的计算机C1,C2,……,Cp上,对一组给定的数据分布X={X1,X2,……,Xp}进行全局排序,得到一个新的数据分布Y={Y1,Y2,……,Yp},使得每个Yi(1≤i≤p)有序,并且Yi的每个元素不大于Yj的任何元素,i≤j。分布式排序必须完成的最小工作是:
1.1 数据传输:把一些效据从它们所在的机器送到它们应放的机器;
1.2 局部排序;
1.3 预处理,以便能正确地把数据重新分布。
因此,根据预处理分类,一个分布式系统中的排序算法有四类操作:
1.3.1 局部排序;
1..3.2 合并;
1.3.3 预处理;
1.3.4 数据交换。
2.算法的分类:根据算法的分析可以分为:单节点排序(序(Single Node Sort,SNS)、多节点归并排序((Multiple Node Merge Sort,MNMS)和多节点分区排序((Multiple Partition Sort,MPS)。
2.1 单节点排序(SNS):假设数据存储在多个节点中,但是负责计算的节点之间没有并行计算的能力,只有当前被连接的节点能够提供计算并对对客户端提供服务.在这样的场景下对进行数据排序,流程的主要是,各节点将数据读入内存,并通过网络传输至排序的节点,在该节点上进行排序。
2.2 多节点归并排序:当存储数据的节点同时也拥有计算能力的时候,可以采用算法是:各节点先对存储在本地的数据进行排序,待所有的存储节点都对本地的数据排好序之后,再传送至某一个处理节点进行归并排序。
2.3 多节点分区排序:当节点具有并行计算能力,可采用如的算法:将数据按照一定的范围进行划分,每个节点处理一定范围内的数据,当节点获取到属于该范围的所有数据后,对数据进行排序操作。
分布式系统
1. 分布式系统功能作用
分布式系统(distributed system)是建立在网络之上的软件系统。正是因为软件的特性,所以分布式系统具有高度的内聚性和透明性。因此,网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统),而不是硬件。内聚性是指每一个数据库分布节点高度自治,有本地的数据库管理系统。透明性是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。在分布式数据库系统中,用户感觉不到数据是分布的,即用户不须知道关系是否分割、有无副本、数据存于哪个站点以及事务在哪个站点上执行等。
2. 分布式系统在计算机中的应用过程
在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体,就好像是一个系统似的。系统拥有多种通用的物理和逻辑资源,可以动态的分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。系统中存在一个以全局的方式管理计算机资源的分布式操作系统。通常,对用户来说,分布式系统只有一个模型或范型。在操作系统之上有一层软件中间件(middleware)负责实现这个模型。一个著名的分布式系统的例子是万维网(World Wide Web),在万维网中,所有的一切看起来就好像是一个文档(Web页面)一样。
在计算机网络中,这种统一性、模型以及其中的软件都不存在。用户看到的是实际的机器,计算机网络并没有使这些机器看起来是统一的。如果这些机器有不同的硬件或者不同的操作系统,那么,这些差异对于用户来说都是完全可见的。如果一个用户希望在一台远程机器上运行一个程序,那么,他必须登陆到远程机器上,然后在那台机器上运行该程序。
分布式系统和计算机网络系统的共同点是:多数分布式系统是建立在计算机网络之上的,所以分布式系统与计算机网络在物理结构上是基本相同的。
他们的区别在于:分布式操作系统的设计思想和网络操作系统是不同的,这决定了他们在结构、工作方式和功能上也不同。网络操作系统要求网络用户在使用网络资源时首先必须了解网络资源,网络用户必须知道网络中各个计算机的功能与配置、软件资源、网络文件结构等情况,在网络中如果用户要读一个共享文件时,用户必须知道这个文件放在哪一台计算机的哪一个目录下;分布式操作系统是以全局方式管理系统资源的,它可以为用户任意调度网络资源,并且调度过程是“透明”的。当用户提交一个作业时,分布式操作系统能够根据需要在系统中选择最合适的处理器,将用户的作业提交到该处理程序,在处理器完成作业后,将结果传给用户。在这个过程中,用户并不会意识到有多个处理器的存在,这个系统就像是一个处理器一样。
分布式系统中排序算法的应用案例
1. 采用Map/Reduce计算模型应用案例
排序是计算机科学中的基础问题,传统的排序算法研
文档评论(0)