大数据技术原理与应用考试卷.pdfVIP

  • 1
  • 0
  • 约6.36千字
  • 约 8页
  • 2026-03-04 发布于河南
  • 举报

大数据技术原理与应用考试卷

考试时间:______分钟总分:______分姓名:______

一、选择题(每题2分,共20分。请将正确选项字母填在括号内)

1.下列哪一项不属于大数据通常描述的“4V”特征?

A.Volume(海量性)

B.Velocity(高速性)

C.Variety(多样性)

D.Veracity(真实性)

2.HDFS架构中,NameNode负责管理什么?

A.数据块的位置信息

B.数据流的传输

C.系统的元数据

D.数据的压缩编码

3.MapReduce模型中,Map阶段的输出键值对(key1,value1)进入

Reduce阶段的输入,其键值对数量关系是?

A.一定多于value1的数量

B.一定少于key1的数量

C.等于Map任务输出键值对的总数

D.与Map任务的并行度有关

4.以下哪种技术主要适用于处理需要快速迭代、内存计算的大规模数据集?

A.MapReduce

B.SparkSQL

C.Storm

D.Hive

5.NoSQL数据库中,MongoDB属于哪种类型的数据库?

A.键值存储

B.列式存储

C.文档存储

D.图数据库

6.数据仓库中的OLAP操作“上卷”(Roll-up)指的是?

A.将数据从细粒度聚合到粗粒度

B.将数据从粗粒度细分到细粒度

C.增加新的数据维度

D.删除冗余数据

7.下列关于Hive和SparkSQL的描述,错误的是?

A.两者都提供了基于SQL的数据查询接口

B.Hive通常运行在HadoopYARN上,SparkSQL可以运行在多种集群管

理器上

C.HiveQL的解析和执行通常比SparkSQL慢

D.两者都能直接操作存储在HBase中的数据

8.以下哪个组件是HadoopYARN的核心部分,负责集群资源的管理和调度?

A.HDFS

B.MapReduce

C.YARNResourceManager

D.YARNNodeManager

9.对于需要高并发读写、且数据模式相对固定的场景,以下哪种存储方案可

能最合适?

A.HDFS+MapReduce

B.HBase

C.Redis

D.MongoDB

10.大数据生态中,Sqoop主要用于什么?

A.实时数据流的收集

B.不同数据存储系统之间批量数据的传输

C.分布式图形计算

D.数据仓库的在线分析

二、填空题(每空2分,共20分。请将答案填在横线上)

1.大数据通常指无法在一定时间范围内用常规软件工具进行捕捉、管理和处

理的数据集合,其价值密度相对较低,但____________价值高。

2.Hadoop中的HDFS采用____________架构,将大文件分割成多个数据块进

行存储。

3.在MapReduce编程模型中,Map函数的输入是一对键值对(key_in,

value_in),其输出也是一对键值对(key_out,value_out),通常

____________作为Reduce阶段的输入键。

4.Spark的核心抽象是RDD(弹性分布式数据集),它是一个只能并行操作

的有向无环图(DirectedAcyclicGraph,DAG)的_________

文档评论(0)

1亿VIP精品文档

相关文档