2026年国开电大大数据技术概论形考题库100道带答案(巩固).docxVIP

  • 0
  • 0
  • 约2.47万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术概论形考题库100道带答案(巩固).docx

2026年国开电大大数据技术概论形考题库100道

第一部分单选题(100题)

1、以下哪项不属于大数据的核心特征“5V”中的内容?

A.Volume(容量)

B.Velocity(速度)

C.Variety(多样性)

D.Validity(有效性)

【答案】:D

解析:大数据的5V核心特征通常指Volume(海量数据)、Velocity(高速产生与处理)、Variety(数据类型多样)、Value(低价值密度但含潜在价值)、Veracity(数据真实性)。Validity(有效性)并非大数据特征,故错误。

2、在Hadoop生态系统中,负责存储海量分布式数据的核心组件是?

A.HDFS(分布式文件系统)

B.MapReduce(分布式计算框架)

C.YARN(资源管理器)

D.Hive(数据仓库工具)

【答案】:A

解析:本题考察Hadoop生态系统组件知识点。HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系统,专为存储海量数据设计,支持大文件和高容错性;MapReduce是分布式计算框架,负责并行处理数据;YARN负责集群资源管理和任务调度;Hive是基于Hadoop的数据仓库工具,用于SQL类查询。因此正确答案为A。

3、大数据的5V特征中,强调数据真实性和可信度的是以下哪一项?

A.Volume(规模)

B.Velocity(速度)

C.Veracity(真实性)

D.Value(价值)

【答案】:C

解析:本题考察大数据5V特征的定义。Volume指数据规模(如TB/PB级);Velocity指数据产生和处理的速度;Veracity强调数据的真实性和可信度(如数据清洗后确保的准确性);Value指数据的价值密度。因此正确答案为C,其他选项分别对应不同特征,不符合题干描述。

4、以下哪个工具是专门用于大数据交互式可视化分析的?

A.Tableau

B.MySQL

C.Hive

D.Pig

【答案】:A

解析:本题考察大数据可视化工具,Tableau是专业的交互式数据可视化分析工具;MySQL是关系型数据库管理系统,Hive是基于Hadoop的数据仓库工具,Pig是Hadoop的高级查询语言工具,均非可视化工具。

5、大数据的哪个特征强调数据产生和处理的速度快,例如实时流数据处理场景?

A.Volume(数据规模大)

B.Velocity(数据处理速度快)

C.Variety(数据类型多样)

D.Value(数据价值密度低)

【答案】:B

解析:本题考察大数据的4V特征。正确答案为B,Velocity(速度)特征特指数据产生、传输和处理的速度极快,如实时监测、社交媒体动态等场景需毫秒级响应。A选项Volume指数据规模庞大(如TB/PB级);C选项Variety指数据类型多样(结构化、半结构化、非结构化并存);D选项Value指数据价值密度低(海量数据中高价值信息占比小,需深度挖掘)。因此B符合题意。

6、数据预处理的主要目的不包括以下哪项?

A.去除噪声数据

B.整合多源数据

C.挖掘数据潜在价值

D.数据标准化处理

【答案】:C

解析:本题考察数据预处理的核心目的知识点。数据预处理是为后续分析做准备的关键步骤,包括数据清洗(去除噪声)、数据集成(整合多源数据)、数据转换(标准化处理)、数据规约(降维)等。而“挖掘数据潜在价值”属于数据分析阶段的任务,并非预处理的目的,因此C选项错误。

7、以下哪种数据采集方式不属于大数据常用的自动采集手段?

A.传感器实时采集环境数据

B.服务器日志自动记录用户行为

C.企业员工手动录入财务报表

D.网络爬虫抓取公开数据

【答案】:C

解析:本题考察大数据数据采集方法。大数据采集通常强调自动化和规模化,C选项“员工手动录入”属于人工操作,效率低、成本高,无法满足大数据的规模需求。A、B、D均为自动采集方式:传感器、服务器日志、网络爬虫均通过程序或设备自动完成数据收集。因此正确答案为C。

8、以下哪个不是Hadoop生态系统的核心组件?

A.HDFS(分布式文件系统)

B.Spark(内存计算框架)

C.YARN(资源管理器)

D.MapReduce(计算框架)

【答案】:B

解析:本题考察Hadoop生态系统核心组件知识点。Hadoop生态系统核心组件包括HDFS(分布式存储)、MapReduce(分布式计算)、YARN(资源管理)等。Spark是独立的大数据处理框架,不属于Hadoop生态系统核心组件,因此正确答案为B。

9、以下哪项是大数据处理中负责分布式计算的核心框架?

A.HDFS(Hadoop分布式文件系统,负责大数据的存储)

B.Map

文档评论(0)

1亿VIP精品文档

相关文档