云计算与大数据技术课后习题.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云计算与大数据技术课后习题

第一章 云计算与大数据基础1.在信息产业的发展历程中。硬件驱动力,网络驱动力,作为两个重要的内在动力在不同的时期起着重要的作用2~5西摩 克雷超级计算机之父约翰 麦克锡云计算之父蒂姆 伯纳斯 李万维网发明人 第一个网页开发者吉姆 格雷大数据之父MapReduce思想来源LISP语言7.按照资源封装层次,云计算分为 Iaas paas saas三种8. 教材P2 1.1.210. 教材P8 1.2.211. 教材P10 1.2.3第二章 云计算与大数据相关技术1.一致性hash算法原理:哈希算法是一种从稀疏值到紧密值范围的映射方法,在存储和计算定位时可以被看做是一种路由算法。通过这种路与哦算法文件块能被唯一的定位到一个节点的位置。传统的hash算法容错性和扩展性都不好,无法有效的适应面向数据系统节点的动态变化。意思就是当集群需要增加节点,传统的hash算法不容易检测到新增加的节点,此为扩展性不好,而一致性hash算法增加一个节点只会影响增加的这个节点到前一个节点之间的数据。容错性就是如果不幸一个机器C宕机了,那么机器B和C之间的数据都会被D执行,那么受影响的数据只是机器B和C之间的数据。当然,容错性和扩展性对于节点数较多的集群是比较有意义的,对于节点较少的集群似乎这两个特性并没有什么诱惑力。一致性hash的实际目的就是解决节点频繁变化时的任务分配问题,一致性hash将整个hash值空间组织成一个虚拟圆环,我们这里假设某hash函数H值空间为0~(2^32-1),即32位无符号整形。下面简述一下一致性hash的原理:这是一致性hash的整个值空间0~(2^32-1)下一步将各个服务器使用Hash进行一个哈希,具体可以选择服务器的ip或主机名作为关键字进行哈希,这样每台机器就能确定其在哈希环上的位置,假设使用四台机器进行hash:将数据key使用相同的函数Hash计算出哈希值,并确定此数据在环上的位置,从此位置沿环顺时针“行走”,第一台遇到的服务器就是其应该定位到的服务器。例如我们有Object A、Object B、Object C、Object D四个数据对象,经过哈希计算后,在环空间上的位置如下:根据一致性哈希算法,数据A会被定为到Node A上,B被定为到Node B上,C被定为到Node C上,D被定为到Node D上下面我们看看当集群机器比较少的情况例如系统中只有两台服务器,其环分布如下,此时必然造成大量数据集中到Node A上,而只有极少量会定位到Node B上。为了解决这种数据倾斜问题,一致性哈希算法引入了虚拟节点机制,即对每一个服务节点计算多个哈希,每个计算结果位置都放置一个此服务节点,称为虚拟节点。具体做法可以在服务器ip或主机名的后面增加编号来实现。例如上面的情况,可以为每台服务器计算三个虚拟节点,于是可以分别计算 “Node A#1”、“Node A#2”、“Node A#3”、“Node B#1”、“Node B#2”、“Node B#3”的哈希值,于是形成六个虚拟节点:同时数据定位算法不变,只是多了一步虚拟节点到实际节点的映射,例如定位到“Node A#1”、“Node A#2”、“Node A#3”三个虚拟节点的数据均定位到Node A上。这样就解决了服务节点少时数据倾斜的问题。在实际应用中,通常将虚拟节点数设置为32甚至更大,因此即使很少的服务节点也能做到相对均匀的数据分布。2.科学研究的四个范式:观测实验、理论、计算仿真、数据3.物联网产业链分为:标识,感知,处理,信息传送4.非关系型数据库分为:Column-Oriented面向检索的列式存储,其存储结构为列式结构 如:Google的big table,apache的hbaseKey-Value面向高性能的并发读/写的缓存存储,结构类似于Hash表(hash算法真的要好好学,用的地方太多了,性能的确也是最高的),每个key分别对应一个value,这种数据库适合用来作为缓存系统使用,比如:MemcacheDB,Berkeley DB,redis,flareDocument-Oriented面向海量数据访问的文档存储,这类存储类似key-value形式,只是value主要以JSON或者XML等格式进行存储,比如:mongoDB,CouchDB第三章 虚拟化技术1.Popek和Goldberg 指出:虚拟机具有 同一性,高效性,可控性2.虚拟化技术从计算机体系结构层次上可分为以下5类: 指令集架构级虚拟化,硬件抽象层虚拟化,操作系统层虚拟化,编程语言上的虚拟化,库函数虚拟化3.常用的虚拟化软件系统有 VirtualBox ,VMware Workstation ,KVM4.系统虚拟化具有 硬件无关性,隔离性,多实例,,特权功能等优点。5.系统虚拟化可

文档评论(0)

yanpan1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档