2026年国开电大大数据技术形考题库100道附答案（培优）.docxVIP

下载本文档

0
0
约2.48万字
约 39页
2026-03-09 发布于河南
举报

2026年国开电大大数据技术形考题库100道附答案（培优）.docx

2026年国开电大大数据技术形考题库100道

第一部分单选题(100题)

1、以下哪种工具主要用于在关系型数据库与Hadoop之间进行数据导入导出？

A.Flume（日志收集工具）

B.Sqoop（数据传输工具）

C.Kafka（消息队列系统）

D.HBase（分布式数据库）

【答案】：B

解析：Sqoop（SQL-to-Hadoop）是专门设计用于关系型数据库与Hadoop之间批量数据迁移的工具。Flume用于日志实时采集，Kafka用于高吞吐量消息传递，HBase是分布式数据库而非传输工具，因此正确答案为B。

2、在大数据预处理流程中，去除数据中的重复记录、填补缺失值属于哪个步骤？

A.数据清洗（处理脏数据）

B.数据集成（合并多源数据）

C.数据转换（格式与特征转换）

D.数据规约（降维与特征选择）

【答案】：A

解析：本题考察大数据预处理步骤的定义。数据预处理是数据质量提升的关键环节，各步骤功能如下：数据清洗（处理噪声、缺失值、重复记录等“脏数据”）、数据集成（合并不同数据源）、数据转换（如归一化、编码转换）、数据规约（减少数据规模但保留核心信息）。去除重复记录和填补缺失值属于数据清洗的典型操作，因此答案为A。

3、Spark与传统MapReduce相比，显著的性能优势主要得益于？

A.基于内存计算

B.使用磁盘存储数据

C.仅支持批处理任务

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年国开电大大数据技术形考题库100道附答案（培优）.docxVIP