2026年国开电大大数据技术形考题库100道【黄金题型】.docxVIP

  • 0
  • 0
  • 约2.49万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道【黄金题型】.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、数据预处理中处理缺失值、异常值及重复记录的环节属于哪个步骤?

A.数据集成(合并多源数据)

B.数据清洗(处理数据质量问题)

C.数据转换(格式/单位转换)

D.数据规约(降低数据规模)

【答案】:B

解析:本题考察数据预处理环节知识点。数据清洗是处理数据质量问题的核心步骤,包括缺失值填充、异常值处理、重复记录去重等;数据集成是合并多源数据,数据转换是调整数据格式/类型,数据规约是通过降维/采样减少数据量,均与“处理缺失值、异常值”无关。

2、下列哪个工具通常用于实时采集分布式系统中的日志数据?

A.Sqoop

B.Flume

C.Kafka

D.Hive

【答案】:B

解析:本题考察大数据数据采集工具的功能,正确答案为B。Flume是Cloudera开源的分布式日志收集系统,专为实时采集分布式系统中的日志数据设计。A选项Sqoop主要用于Hadoop与关系型数据库之间的数据批量导入/导出;C选项Kafka是高吞吐量的分布式消息队列,主要用于数据传输和异步通信,而非实时日志采集;D选项Hive是基于Hadoop的数据仓库工具,用于数据存储和分析,不具备数据采集功能。

3、国开电大大数据技术课程中常见的企业级数据可视化与商业智能(BI)工具是?

A.Tableau

B.Pytho

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档