2026年国开电大大数据技术形考题库100道含答案ab卷.docxVIP

  • 0
  • 0
  • 约2.46万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道含答案ab卷.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、以下哪项是大数据在金融领域的典型应用?

A.智能推荐系统(如电商)

B.精准医疗(个性化治疗方案)

C.欺诈交易检测

D.交通流量预测

【答案】:C

解析:本题考察大数据应用场景,正确答案为C。金融领域通过大数据分析交易行为,实时检测异常交易识别欺诈;A选项是电商/内容平台应用;B选项是医疗领域;D选项是交通管理领域。因此C选项符合题意。

2、在大数据分析流程中,哪个步骤主要用于处理数据中的缺失值和异常值?

A.数据采集

B.数据清洗

C.数据挖掘

D.数据可视化

【答案】:B

解析:数据清洗是大数据分析的关键前置步骤,核心任务是处理原始数据中的噪声、缺失值、异常值、重复数据及格式不一致等问题,确保数据质量;数据采集是获取原始数据的过程,数据挖掘是从数据中提取模式,数据可视化是结果展示环节,故正确答案为B。

3、以下哪个工具是专为大数据分布式计算设计的内存计算框架?

A.ApacheSpark

B.PythonPandas

C.NumPy

D.Scikit-learn

【答案】:A

解析:本题考察大数据分布式计算工具知识点。ApacheSpark是基于内存的分布式计算框架,适用于大规模数据处理;PythonPandas、NumPy主要用于单机数据处理与数值计算,Scikit-learn是机器学习库,因此专为分布式计算设计的是Spark,正确选项A。

4、通过分析历史数据揭示未来趋势并预测事件可能性的大数据分析类型是?

A.描述性分析

B.诊断性分析

C.预测性分析

D.规范性分析

【答案】:C

解析:本题考察大数据分析类型知识点。预测性分析的核心是基于历史数据构建模型,预测未来趋势或事件发生概率;描述性分析是总结历史数据(如报表统计),诊断性分析是定位问题原因(如根因分析),规范性分析是提供行动建议(如最优策略推荐)。因此正确答案为C。

5、以下关于NoSQL数据库的描述,正确的是?

A.NoSQL数据库只能存储结构化数据

B.NoSQL数据库通常不严格遵循ACID事务特性

C.NoSQL数据库仅支持单机部署,无法分布式扩展

D.NoSQL数据库的查询语言与SQL完全相同

【答案】:B

解析:本题考察NoSQL数据库特性知识点。NoSQL(非关系型数据库)的特点:A错误,NoSQL支持非结构化(如文档、图片)、半结构化数据,而SQL主要处理结构化数据;B正确,NoSQL为提高扩展性,通常弱化ACID(如BASE理论),不严格遵循原子性、一致性等特性;C错误,NoSQL支持分布式部署(如MongoDB分片),可横向扩展;D错误,NoSQL查询语言多样(如MongoDB的BSON查询、Redis的键值对查询),与SQL语法不同。因此选B。

6、Hadoop生态系统中,负责分布式存储的核心组件是哪个?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态组件功能。HDFS(HadoopDistributedFileSystem)是分布式文件系统,专为存储海量数据设计,支持跨节点扩展;MapReduce是分布式计算框架,负责并行处理;YARN负责集群资源调度;Hive是基于Hadoop的数据仓库工具。因此负责分布式存储的是HDFS,正确答案为A。

7、以下哪项属于大数据预处理阶段的核心操作?

A.数据清洗

B.数据挖掘

C.模型训练

D.结果可视化

【答案】:A

解析:本题考察大数据处理流程各阶段的任务区分。大数据处理流程分为:数据采集→预处理→数据存储→分析挖掘→结果展示。预处理阶段的核心操作包括数据清洗(处理缺失值、去重、格式统一等)、数据集成等。选项B的数据挖掘属于分析阶段,C的模型训练属于建模阶段,D的结果可视化属于后处理阶段。因此正确答案为A。

8、在Hadoop生态系统中,负责分布式存储海量数据的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,主要负责海量数据的分布式存储;B选项MapReduce是分布式计算框架,C选项YARN是资源管理器,D选项Hive是基于Hadoop的数据仓库工具,均不负责分布式存储。因此正确答案为A。

9、以下哪项是大数据在电商领域的典型应用

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档