华为ict大数据考试题库及答案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

华为ict大数据考试题库及答案

一、单项选择题(每题2分,共20分)

1.以下哪种存储适合大数据的海量存储?()

A.内存B.硬盘C.磁带D.光盘

2.Hadoop核心组件不包括以下哪个?()

A.HDFSB.MapReduceC.YARND.Spark

3.以下哪个是常用的大数据分析语言?()

A.C++B.JavaC.PythonD.Fortran

4.大数据的4V特征不包括()

A.VolumeB.VarietyC.ValueD.Virtual

5.Spark中RDD的含义是()

A.弹性分布式数据集B.关系型数据库C.内存数据结构D.分布式文件系统

6.Kafka主要用于()

A.数据存储B.数据处理C.消息队列D.机器学习

7.以下哪个工具常用于数据清洗?()

A.HiveB.PigC.FlumeD.Sqoop

8.Hive是基于()的数据仓库工具。

A.HDFSB.MapReduceC.YARND.以上都是

9.以下哪种算法属于聚类算法?()

A.决策树B.K-MeansC.逻辑回归D.支持向量机

10.数据挖掘的主要任务不包括()

A.分类B.预测C.数据备份D.关联规则挖掘

答案

1.B2.D3.C4.D5.A6.C7.B8.D9.B10.C

二、多项选择题(每题2分,共20分)

1.以下属于大数据处理框架的有()

A.HadoopB.SparkC.FlinkD.TensorFlow

2.数据采集的渠道包括()

A.传感器B.日志文件C.数据库D.社交媒体

3.以下哪些是HDFS的特点()

A.高容错性B.适合大量小文件存储C.分布式存储D.高吞吐量

4.Spark相比HadoopMapReduce的优势有()

A.内存计算B.编程模型简洁C.运行速度快D.只支持Java语言

5.常用的数据库类型适合大数据存储的有()

A.关系型数据库B.NoSQL数据库C.图数据库D.内存数据库

6.机器学习算法可分为()

A.监督学习B.无监督学习C.半监督学习D.强化学习

7.以下属于数据可视化工具的有()

A.TableauB.PowerBIC.MatplotlibD.Seaborn

8.Kafka的优势包括()

A.高吞吐量B.可持久化C.分布式D.低延迟

9.数据预处理包括()

A.数据清洗B.数据集成C.数据变换D.数据归约

10.以下哪些是分布式文件系统()

A.HDFSB.CephC.GlusterFSD.NTFS

答案

1.ABC2.ABCD3.ACD4.ABC5.BCD6.ABCD7.ABCD8.ABCD9.ABCD10.ABC

三、判断题(每题2分,共20分)

1.Hadoop只能运行在Linux系统上。()

2.大数据分析中,数据量越大分析结果一定越准确。()

3.Spark可以独立运行,也可以在YARN上运行。()

4.NoSQL数据库不适合存储结构化数据。()

5.数据挖掘和机器学习是完全相同的概念。()

6.Flume主要用于数据采集。()

7.决策树算法只能用于分类任务。()

8.Kafka中的Topic可以理解为消息的类别。()

9.Hive中的表和关系型数据库中的表概念完全一样。()

10.分布式计算一定比单机计算效率高。()

答案

1.×2.×3.√4.×5.×6.√7.×8.√9.×10.×

四、简答题(每题5分,共20分)

1.简述大数据的4V特征及其含义。

答案:Volume(大量),指数据量巨大;Variety(多样),数据类型繁多;Velocity(高速),数据产生和处理速度快;Value(价值),数据蕴含高价值但密度低。

2.简述Hadoop生态系统中HDFS、MapReduce和YARN的作用。

答案:HDFS

文档评论(0)

139****1522 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档