大数据试题及答案.docxVIP

  • 0
  • 0
  • 约5.05千字
  • 约 11页
  • 2026-02-11 发布于四川
  • 举报

大数据试题及答案

一、单项选择题(每题2分,共20分)

1.在Hadoop分布式文件系统(HDFS)中,默认的块大小是?

A.32MBB.64MBC.128MBD.256MB

2.以下哪项不是SparkRDD的特性?

A.不可变B.可分区C.支持缓存D.直接存储结构化数据

3.关于Kafka的生产者(Producer),以下描述错误的是?

A.可以配置acks参数控制消息确认机制

B.消息发送默认采用同步模式

C.支持消息压缩(如LZ4、Snappy)

D.键(Key)相同的消息会被发送到同一个分区

4.HBase中,RegionServer的主要职责是?

A.管理元数据(.META.表)B.存储和处理具体的Region

C.协调Region的分配D.处理客户端的DDL请求

5.在数据仓库建模中,以下哪种模型更适合OLAP分析?

A.第三范式(3NF)B.星型模型C.雪花模型D.ER模型

6.以下哪项是Flink的时间特性?

A.事件时间(EventTime)B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)D.以上都是

7.分布式系统中,CAP定理指的是?

A.一致性、可用性、分区容错性B.一致性、原子性、持久性

C.并发、可用、性能D.容量、可扩展性、持久性

8.关于MapReduce的Shuffle阶段,以下描述正确的是?

A.发生在Map任务输出后、Reduce任务输入前

B.仅涉及数据排序,不涉及分组

C.所有数据会先写入本地磁盘再传输

D.网络传输的数据量不影响整体性能

9.以下哪个工具通常用于大数据实时计算?

A.HiveB.HBaseC.FlinkD.Sqoop

10.在机器学习中,以下哪种方法属于无监督学习?

A.逻辑回归B.K-means聚类C.随机森林D.支持向量机(SVM)

二、填空题(每题2分,共20分)

1.Hadoop的核心组件包括HDFS、______和YARN。

2.Spark中,______是分布式内存抽象,代表不可变、可分区的记录集合。

3.Kafka的消息存储在______中,每个该结构可以划分为多个分区。

4.HBase的数据模型中,行键(RowKey)的存储顺序是______(填“字典序”或“哈希序”)。

5.数据倾斜指的是分布式计算中,______的数据量远大于其他节点,导致任务执行时间过长。

6.Flink的窗口(Window)可以分为时间窗口、______和会话窗口。

7.分布式文件系统中,______机制用于保证数据可靠性,HDFS默认采用3副本策略。

8.在MapReduce中,______函数负责将Map输出的键值对按键分组,传递给Reduce任务。

9.数据仓库的分层架构通常包括ODS(操作数据存储)、DWD(明细数据层)、DWS(汇总数据层)和______(应用数据层)。

10.机器学习中,______是衡量模型在新数据上的预测能力,常用方法包括交叉验证和留出法。

三、简答题(每题8分,共40分)

1.简述HadoopYARN的核心架构及各组件的功能。

2.对比SparkRDD的转换操作(Transformation)和行动操作(Action),并各举两个例子。

3.说明Kafka如何保证消息的可靠传输(从生产者、Broker、消费者三个层面分析)。

4.什么是数据湖(DataLake)?它与传统数据仓库(DataWarehouse)的主要区别是什么?

5.解释分布式系统中的“最终一致性”,并举例说明其应用场景。

四、计算题(每题10分,共20分)

1.某HDFS集群配置为:单节点存储容量2TB(1TB=1024GB),块大小128MB,副本数3。现有一个大小为5GB的文本文件需要存储,计算:

(1)该文件会被划分为多少个HDFS块?

(2)整个集群存储该文件需要占用多少磁盘空间?

2.某实时数据流系统使用Kafka作为消息中间件,Topic配置为3个分区,每个分区的日志保留时间为7天。已知单分区的消息写入速率为500条/秒,每条消息平均大小为1KB。计算:

(1)单分区每天产生的数据量(单位:GB,保留两位小数);

(2)整个Topic7天需要的存储容量(单位:TB,保留两位小数)。

五、综合应用题(20分)

某电商公司需要构建用户行为分析系统,要求实时分析用户的点击、加购、下单等行为,并支持以下需求:

实时统计最近1小时内各商品的点击量;

按天汇总用户的下单金额,用于后续离线分析;

存储历史行为数

文档评论(0)

1亿VIP精品文档

相关文档