2026年国开电大大数据技术概论形考题库100道及参考答案(夺分金卷).docxVIP

  • 0
  • 0
  • 约2.45万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道及参考答案(夺分金卷).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、Hadoop生态系统中,负责分布式数据存储的核心组件是?

A.HDFS

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件功能。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,负责将海量数据分散存储在多台服务器上;MapReduce是分布式计算框架,用于并行处理数据;YARN是资源管理器,负责集群资源调度;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的是HDFS。

2、在大数据分析流程中,数据清洗的主要目的是?

A.去除噪声数据和异常值

B.将数据转换为结构化格式

C.对数据进行加密保护

D.提升数据的计算效率

【答案】:A

解析:本题考察数据预处理知识点。数据清洗主要处理数据质量问题,核心是去除缺失值、噪声数据和异常值,确保数据准确性。选项B属于数据转换步骤,C属于数据安全范畴,D是数据压缩等优化的目标,均非数据清洗的目的。因此正确答案为A。

3、以下哪项不属于大数据的核心特征?

A.数据规模大(Volume)

B.处理速度快(Velocity)

C.数据类型单一(Variety)

D.蕴含高价值(Value)

【答案】:C

解析:本题考察大数据的核心特征知识点。大数据的核心特征通常总结为4V:数据规模大(Volume)、处理速度快(Velocity)、数据类型多样(Variety)、蕴含高价值(Value)。选项C中的“数据类型单一”与“数据类型多样”(Variety)特征完全相反,因此不属于大数据核心特征。A、B、D均为4V特征的正确描述。

4、以下哪项属于大数据在‘精准营销’场景中的典型应用?

A.通过用户行为数据分析,预测用户购买倾向并推送个性化广告

B.利用传感器实时监测城市交通流量,优化信号灯时长

C.通过卫星遥感数据分析农作物生长情况,指导精准灌溉

D.对医疗影像数据进行自动分析,辅助医生诊断疾病

【答案】:A

解析:本题考察大数据应用场景。选项A通过用户行为数据(大数据)分析用户偏好,实现个性化营销,符合‘精准营销’的核心逻辑;选项B属于‘智慧城市’中的交通管理;选项C属于‘智慧农业’中的精准种植;选项D属于‘智慧医疗’中的影像诊断。因此正确答案为A。

5、在数据类型分类中,以下属于非结构化数据的是?

A.关系型数据库表中的数据

B.纯文本文件(如.txt格式)

C.XML格式的数据

D.JSON格式的数据

【答案】:B

解析:本题考察数据类型的概念,正确答案为B。非结构化数据无固定数据模型,难以用二维表结构表示,纯文本文件(如.txt)通常无预定义格式,属于非结构化数据;A选项关系型数据库表数据是结构化数据(有明确字段和表结构);C选项XML和D选项JSON属于半结构化数据(有一定结构但非严格关系型),因此B为正确答案。

6、在Hadoop生态系统中,负责分布式存储的核心组件是?

A.HDFS(Hadoop分布式文件系统)

B.MapReduce

C.YARN

D.Hive

【答案】:A

解析:本题考察Hadoop生态系统组件知识点。HDFS是Hadoop分布式文件系统,核心功能是分布式存储海量数据;MapReduce是分布式计算框架,负责并行处理任务;YARN是资源管理器,负责调度集群资源;Hive是基于Hadoop的数据仓库工具,用于数据查询和分析。因此负责分布式存储的核心组件是HDFS,正确答案为A。

7、以下哪项属于大数据在医疗健康领域的典型应用?

A.交通流量实时监控

B.医疗影像智能诊断

C.电商用户行为推荐

D.金融欺诈检测

【答案】:B

解析:本题考察大数据应用场景。医疗健康领域利用大数据分析可实现影像智能诊断(如AI辅助CT/MRI分析)、疾病风险预测等。选项A属于交通领域;选项C属于电商商业智能;选项D属于金融风控,均不符合医疗健康主题。

8、以下哪项是数据仓库的典型特点?

A.面向特定部门需求

B.存储历史与当前数据

C.专注单一业务场景

D.实时响应事务性查询

【答案】:B

解析:本题考察数据仓库与数据集市的区别。数据仓库特点包括面向主题、集成性、非易失性(历史数据)、时变性(存储时间序列数据);A(面向特定部门)是数据集市特点,C(单一业务场景)错误,数据仓库需整合多业务数据,D(实时事务查询)是OLTP系统特点,数据仓库侧重分析而非实时事务。因此正确答案为B。

9、Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.YARN(资源管理器)

B.HDFS(分

文档评论(0)

1亿VIP精品文档

相关文档