大数据技术考试题库及分析.docxVIP

  • 4
  • 0
  • 约8.34千字
  • 约 21页
  • 2026-06-09 发布于上海
  • 举报

大数据技术考试题库及分析

一、单项选择题(共10题,每题1分,共10分)

下列哪一项是大数据存储中最常用的分布式文件系统?

A.NTFS是适用于Windows系统的本地文件系统

B.HDFS是Hadoop生态系统中的核心分布式文件系统

C.FAT32是支持最大单个文件4GB的本地文件系统

D.EXT4是Linux系统中常用的本地文件系统

答案:B

解析:正确选项B的依据是HDFS专为大规模数据的分布式存储设计,具备高容错性、高扩展性和高吞吐量,是大数据存储的核心组件。错误选项A、C、D均为本地文件系统,无法支持大规模分布式环境下的数据存储需求。

在大数据预处理流程中,用于处理缺失值、异常值的核心环节是?

A.数据清洗主要负责修正或删除数据中的错误、缺失与异常内容

B.数据集成主要完成多源异构数据的合并与统一

C.数据变换主要实现数据格式、结构的转换与标准化

D.数据规约主要通过减少数据量或维度降低处理复杂度

答案:A

解析:正确选项A的依据是数据清洗是提升数据质量的基础步骤,直接针对数据中的缺失、异常、重复等问题进行处理。错误选项B的核心是数据合并,C是数据格式调整,D是数据规模缩减,均不涉及缺失值与异常值的处理。

MapReduce分布式计算框架的核心思想是?

A.先将大规模任务拆分,再合并计算结果

B.采用单节点集中式处理所有计算任务

C.仅处理结构化数据

文档评论(0)

1亿VIP精品文档

相关文档