(2025年)大数据技术与应用考试试题及答案.docxVIP

  • 0
  • 0
  • 约6.69千字
  • 约 19页
  • 2026-04-25 发布于四川
  • 举报

(2025年)大数据技术与应用考试试题及答案.docx

(2025年)大数据技术与应用考试试题及答案

一、单项选择题(每题2分,共30分)

1.以下哪种数据格式通常用于存储大规模的结构化数据,并且在Hadoop生态系统中广泛使用?()

A.XML

B.JSON

C.Avro

D.CSV

答案:C。Avro是一种与编程语言无关的数据序列化系统,支持快速序列化和反序列化,适合大规模数据存储和处理,在Hadoop生态系统中广泛使用。XML和JSON虽然也是常见的数据格式,但在大规模数据存储和处理方面性能不如Avro。CSV是一种简单的文本格式,缺乏模式定义等特性。

2.以下哪个不是Hadoop分布式文件系统(HDFS)的特点?()

A.高容错性

B.高吞吐量

C.适合处理小文件

D.适合流式数据访问

答案:C。HDFS设计初衷是为了处理大规模的数据集,不适合处理大量小文件,因为小文件会占用大量的NameNode内存。HDFS具有高容错性,通过数据冗余存储来保证数据安全;具有高吞吐量,适合流式数据访问。

3.在Spark中,以下哪种操作是转换操作(Transformation)?()

A.collect()

B.count()

C.map()

D.reduce()

答案:C。转换操作是惰性的,不会立即执行,而是提供一个新的RDD。map()是转换操作,它对RD

文档评论(0)

1亿VIP精品文档

相关文档