2026年国开电大大数据技术概论形考题库100道附答案【达标题】.docxVIP

  • 0
  • 0
  • 约2.49万字
  • 约 39页
  • 2026-03-09 发布于山东
  • 举报

2026年国开电大大数据技术概论形考题库100道附答案【达标题】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、大数据生命周期中,数据清洗、去重、格式转换等操作主要发生在哪个阶段?

A.数据采集

B.数据预处理

C.数据存储

D.数据分析

【答案】:B

解析:本题考察大数据处理流程知识点。正确答案为B。解析:数据预处理是大数据生命周期的关键环节,主要包括清洗(去除噪声和错误数据)、去重(消除重复记录)、格式转换(统一数据格式)等操作,确保数据质量;A选项数据采集是获取原始数据(如日志、传感器数据);C选项数据存储是将处理后的数据持久化(如HDFS、数据库);D选项数据分析是对存储数据进行挖掘(如分类、预测)。因此B为正确选项。

2、下列哪项是大数据技术相比传统数据处理技术的显著差异?

A.处理数据量较小(通常在GB级及以下)

B.处理速度较慢(以小时级甚至天级为单位)

C.基于分布式计算框架实现并行处理

D.仅适用于结构化数据(如关系型数据库表)

【答案】:C

解析:本题考察大数据与传统数据处理的区别知识点。正确答案为C,大数据技术通过分布式计算框架(如Hadoop/Spark)实现并行处理,可高效处理PB级甚至EB级海量数据;传统数据处理多基于单机或小规模集群,处理速度慢于大数据技术;大数据支持结构化、半结构化、非结构化等多种数据类型,且处理数据量远大于传统技术(通常以TB/PB为单位)。

3、Hadoop分布式文件系统的英文缩写是?

A.HBase

B.HDFS

C.MapReduce

D.YARN

【答案】:B

解析:HDFS是HadoopDistributedFileSystem的缩写,是Hadoop生态系统中负责存储海量数据的分布式文件系统。A选项HBase是分布式NoSQL数据库;C选项MapReduce是并行计算框架;D选项YARN是资源管理器。因此正确答案为B。

4、以下哪个应用场景体现了大数据在交通领域的典型应用?

A.电商平台的智能推荐系统

B.城市交通流量实时监控与动态调度

C.医院的电子病历分析

D.金融机构的风险评估模型

【答案】:B

解析:城市交通流量实时监控与调度通过大数据采集实时路况、历史数据,实现动态调度,属于交通领域典型应用;A属于电商推荐算法;C属于医疗大数据;D属于金融风险评估。因此正确答案为B。

5、以下哪个工具主要用于交互式大数据可视化分析,帮助用户快速理解数据模式和趋势?

A.Hive(数据仓库工具)

B.Tableau(可视化分析工具)

C.HDFS(分布式存储系统)

D.Kafka(消息队列系统)

【答案】:B

解析:本题考察大数据可视化工具知识点。Tableau是专业的交互式可视化分析工具,支持多种图表类型和数据钻取,可快速呈现数据模式;Hive是基于Hadoop的数据仓库工具,用于SQL查询;HDFS是分布式存储系统;Kafka是高吞吐量消息队列。因此正确答案为B。

6、在Hadoop生态系统中,负责分布式计算任务调度和资源管理的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(计算模型)

C.YARN(YetAnotherResourceNegotiator)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件功能。YARN(YetAnotherResourceNegotiator)是Hadoop2.x版本引入的资源管理器,负责集群资源(CPU、内存等)的分配与调度,协调MapReduce等任务的执行。A选项HDFS是分布式存储系统;B选项MapReduce是分布式计算框架,负责并行计算任务;D选项Hive是基于Hadoop的数据仓库工具,用于SQL查询,均不符合题意。

7、大数据技术在医疗行业的典型应用场景是?

A.智慧城市交通流量预测(城市管理大数据)

B.电商平台用户行为分析(电商推荐大数据)

C.精准医疗中的疾病风险预测(医疗大数据)

D.企业财务报表自动生成(传统业务数据处理)

【答案】:C

解析:本题考察大数据应用领域知识点。精准医疗通过整合患者病历、基因数据、生活习惯等多源数据,利用大数据分析技术实现疾病风险预测、个性化治疗方案推荐,属于大数据在医疗领域的典型应用。A选项属于城市管理大数据应用,B选项属于电商大数据应用,D选项属于传统业务数据处理,与大数据技术无直接关联。因此正确答案为C。

8、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是以下哪一项?

A.MapReduce(分布式计算框架)

B.YARN(资源管理器)

C.HDFS(分布式文件系统)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop核心

文档评论(0)

1亿VIP精品文档

相关文档