2026年国开电大大数据技术概论形考题库100道【考点梳理】.docxVIP

  • 0
  • 0
  • 约2.47万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道【考点梳理】.docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项属于大数据中的非结构化数据?

A.关系型数据库中的用户信息表

B.医院的电子病历文本

C.企业ERP系统中的结构化销售数据

D.金融交易记录的结构化表格

【答案】:B

解析:本题考察大数据数据类型知识点。非结构化数据无固定格式和预定义结构,如文本、图片、音频等;结构化数据有明确字段和格式,如关系型数据库表、结构化表格。选项A、C、D均为结构化数据,选项B“电子病历文本”属于无固定格式的非结构化数据,因此正确答案为B。

2、以下哪个场景最能体现大数据技术的应用价值?

A.某学校人工统计学生成绩并记录在纸质表格中

B.某电商平台根据用户浏览和购买历史推荐个性化商品

C.某工厂仅依靠人工经验调整生产线参数

D.某图书馆手工整理书籍借阅卡片

【答案】:B

解析:本题考察大数据应用场景知识点。大数据技术通过分析海量用户行为数据(如浏览、购买历史),实现精准推荐。选项A、C、D均为传统人工操作,未体现大数据技术的自动化、智能化分析能力。选项B中电商平台利用用户数据推荐商品,是大数据在精准营销中的典型应用,因此正确答案为B。

3、以下哪个工具是专门用于大数据交互式可视化分析的?

A.Tableau

B.MySQL

C.Hive

D.Pig

【答案】:A

解析:本题考察大数据可视化工具,Tableau是专业的交互式数据可视化分析工具;MySQL是关系型数据库管理系统,Hive是基于Hadoop的数据仓库工具,Pig是Hadoop的高级查询语言工具,均非可视化工具。

4、在Hadoop生态系统中,负责分布式计算任务调度和资源管理的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(计算模型)

C.YARN(YetAnotherResourceNegotiator)

D.Hive(数据仓库工具)

【答案】:C

解析:本题考察Hadoop生态系统核心组件功能。YARN(YetAnotherResourceNegotiator)是Hadoop2.x版本引入的资源管理器,负责集群资源(CPU、内存等)的分配与调度,协调MapReduce等任务的执行。A选项HDFS是分布式存储系统;B选项MapReduce是分布式计算框架,负责并行计算任务;D选项Hive是基于Hadoop的数据仓库工具,用于SQL查询,均不符合题意。

5、在Hadoop生态系统中,负责分布式文件存储的核心组件是?

A.MapReduce

B.YARN

C.HDFS

D.Hive

【答案】:C

解析:本题考察Hadoop生态系统核心组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,用于存储海量数据,是Hadoop的核心存储组件,因此C选项正确。A选项MapReduce是分布式计算框架,B选项YARN是资源管理器,D选项Hive是数据仓库工具,均不属于分布式文件存储组件。

6、以下哪个是Hadoop分布式文件系统的英文缩写?

A.HDFS

B.HBase

C.Hive

D.Hadoop

【答案】:A

解析:本题考察Hadoop生态系统核心组件知识点。HDFS是HadoopDistributedFileSystem的缩写,是Hadoop分布式文件系统,用于存储海量数据;HBase是HadoopDatabase(分布式NoSQL数据库),Hive是基于Hadoop的数据仓库工具,Hadoop是整体框架名称而非文件系统缩写。因此正确答案为A。

7、以下哪项属于大数据的典型数据来源?

A.传感器数据(物联网设备采集)

B.结构化数据(如关系型数据库表)

C.关系型数据库中的历史数据

D.机器学习模型生成的预测结果

【答案】:A

解析:本题考察大数据数据来源的类型。传感器数据(如物联网设备、环境监测设备)是大数据的重要来源之一,具有实时性和海量性;B选项“结构化数据”是数据类型(非来源),C选项“关系型数据库”是数据存储载体(非来源),D选项“机器学习模型结果”是数据应用产物(非来源)。因此正确答案为A。

8、在大数据处理流程中,用于处理数据缺失值、异常值及重复数据的步骤是?

A.数据清洗

B.数据集成

C.数据转换

D.数据规约

【答案】:A

解析:本题考察大数据处理流程中的数据预处理步骤知识点。数据清洗的核心作用是去除或修正数据中的噪声、缺失值、异常值及重复数据,保障数据质量;数据集成是合并多源数据,数据转换是统一数据格式,数据规约是降低数据规模,均与处理缺失值无关。因此正确答案为A。

9、以下哪项是Hadoop分布式文

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档