- 0
- 0
- 约 49页
- 2016-12-14 发布于重庆
- 举报
编程模型 为了使云计算环境下的编程十分简单,Google开发了java、Python、C++编程工具MapReduce,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。 MapReduce模式的思想是将要执行的问题分解成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇整输出。 海量数据分布存储技术 GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。 一个GFS集群由一个主服务器和大量的块服务器构成,并被许多客户访问。主服务器存储文件系统所有的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动。主服务器定期通过HeartBeat消息与每一个块服务器通信,给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储,每份数据在系统中保存3个以上备份。 客户与主服务器的交换只限于对元数据的操作,所有数据方面的通信都直接和块服务器联系,这大大提高了系统的效率,防止主服务器负载过重。 海量数据管理技术 云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。云计算系统中的数据管理技
原创力文档

文档评论(0)