2026年国开电大大数据技术形考题库100道附答案(培优).docxVIP

  • 0
  • 0
  • 约2.48万字
  • 约 39页
  • 2026-03-09 发布于河南
  • 举报

2026年国开电大大数据技术形考题库100道附答案(培优).docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、以下哪种工具主要用于在关系型数据库与Hadoop之间进行数据导入导出?

A.Flume(日志收集工具)

B.Sqoop(数据传输工具)

C.Kafka(消息队列系统)

D.HBase(分布式数据库)

【答案】:B

解析:Sqoop(SQL-to-Hadoop)是专门设计用于关系型数据库与Hadoop之间批量数据迁移的工具。Flume用于日志实时采集,Kafka用于高吞吐量消息传递,HBase是分布式数据库而非传输工具,因此正确答案为B。

2、在大数据预处理流程中,去除数据中的重复记录、填补缺失值属于哪个步骤?

A.数据清洗(处理脏数据)

B.数据集成(合并多源数据)

C.数据转换(格式与特征转换)

D.数据规约(降维与特征选择)

【答案】:A

解析:本题考察大数据预处理步骤的定义。数据预处理是数据质量提升的关键环节,各步骤功能如下:数据清洗(处理噪声、缺失值、重复记录等“脏数据”)、数据集成(合并不同数据源)、数据转换(如归一化、编码转换)、数据规约(减少数据规模但保留核心信息)。去除重复记录和填补缺失值属于数据清洗的典型操作,因此答案为A。

3、Spark与传统MapReduce相比,显著的性能优势主要得益于?

A.基于内存计算

B.使用磁盘存储数据

C.仅支持批处理任务

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档