大数据技术原理和应用.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一:判断题(每小题5分) 1:Pig是一个基于Hadoop的大规模数据分析平台,它为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 A:对 B:错 答案:A 正确 2:所有的MapReduce程序都需要经过Map和Reduce这两个过程 A:对 B:错 答案:B 错误 3:一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。 A:对 B:错 答案:A 正确 4:简单随机抽样,是从总体 N 个对象中任意抽取 n 个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。 A:对 B:错 答案:B 错误 5:信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。 A:对 B:错 答案:B 错误 二:单选题(每小题5分) 6:YARN的http端口默认是______ A80 B8080 C 8090 D8088 A B C D 答案:D 错误 7:HBase系统基本架构中主服务器Master的作用是______ A包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程 B可以帮助选举出一个Master作为集群的总管,并保证在任何时刻总有唯一一个Master在运行 C主要负责表和Region的管理工作 D是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求 A B C D 答案:C 错误 8:支撑大数据业务的基础是______ A数据科学 B数据应用 C数据硬件 D数据人才 A B C D 答案:B 错误 9:Heartbeat间隔默认______ A1S B2S C3S D4S A B C D 答案:C 错误 10:下列关于HadoopAPI的说法错误的是______ A Hadoop的文件API不是通用的,只用于HDFS文件系统 BConfiguration类的默认实例化方法是以HDFS系统的资源配置为基础的 CFileStatus对象存储文件和目录的元数据 D FSDataInputStream是java.io.DataInputStream的子类 A B C D 答案:A 正确 11:数据仓库的最终目的是______ A收集业务需求 B建立数据仓库逻辑模型 C开发数据仓库的应用分析 D为用户和业务部门提供决策支持 A B C D 答案:D 正确 12:下列关于大数据的分析理念的说法中,错误的是______ A在数据基础上倾向于全体数据而不是抽样数据 B在分析方法上更注重相关分析而不是因果分析 C在分析效果上更追究效率而不是绝对精确 D在数据规模上强调相对数据而不是绝对数据 A B C D 答案:D 正确 13:云数据库的特性不包括______ A动态可扩展 B高可用性 C高性能 D较高的使用代价 A B C D 答案:D 正确 14:在数据生命周期管理实践中______是执行方法 A数据存储和备份规范 B数据管理和维护 C数据价值发觉和利用 D数据应用开发和管理 A B C D 答案:B 错误 15:Hbase中的批量加载底层使用______实现 A MapReduce B Hive C Coprocessor D Bloom Filter A B C D 答案:A 正确 三:多选题(每小题5分) 16:数据再利用的意义在于______ A挖掘数据的潜在价值 B实现数据重组的创新价值 C利用数据可扩展性拓宽业务领域 D优化存储设备,降低设备成本 A B C D 答案:ABC 错误 17:数据研究经历了几种范式,包括______ A实验 B理论 C计算 D数据 A B C D 答案:ABCD 错误 18:大数据产业包含______关键技术 A批处理计算 B流计算 C图计算 D查询分析计算 A B C D 答案:ABCD 正确 19:在网络爬虫的爬行策略中,应用最为基础的是______ A深度优先遍历策略 B广度优先遍历策略 C高度优先遍历策略 D反向链接策略 A B C D 答案:AB 错误 20:大数据产业发展特点______ A规模较大 B规模较小 C增速较快 D增速缓慢 E多产业交叉融合 A B C D E 答案:ACE 正确 一:判断题(每小题5分) 1:信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。 A:对 B:错 答案:B 正确 2:Hbase可以为Hadoop提供类似于BigTable规模的服务,因此它不能容错地存储海量稀疏数据。 A:对 B:错 答案:B 正确 3:大数据预测能够分析和挖

文档评论(0)

jyr0221 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档