大数据挖掘工程师考试试卷及答案.docVIP

  • 2
  • 0
  • 约2.84千字
  • 约 5页
  • 2026-05-19 发布于山东
  • 举报

大数据挖掘工程师考试试卷及答案

一、填空题(共10题,每题1分)

1.Hadoop生态中,负责分布式存储的核心组件是______。

2.Spark的核心数据抽象是______。

3.K-Means算法属于______学习算法。

4.数据预处理中,缺失值填充常用的方法有均值填充、中位数填充和______填充。

5.Hive中用于定义表结构的语句是______。

6.决策树算法中,衡量特征分裂质量的指标有信息增益、增益率和______。

7.SparkSQL中,支持的分布式数据格式包括Parquet、ORC和______。

8.数据挖掘中,“80/20规则”通常指______占比20%,______占比80%。

9.分布式计算框架中,MapReduce的两个核心阶段是______和______。

10.特征工程中,对类别型特征进行编码的常用方法有One-Hot编码和______编码。

填空题答案

1.HDFS2.RDD(弹性分布式数据集)3.无监督4.众数5.CREATETABLE6.基尼系数7.Avro8.有用数据;噪声/冗余数据9.Map;Reduce10.Label(标签)

二、单项选择题(共10题,每题2分)

1.以下哪个不是Hadoop生态组件?

A.HDFSB.MapReduceC.SparkD.Hive

2.K-Means算法中,初始聚类中心选择更合理的方法是?

A.随机

文档评论(0)

1亿VIP精品文档

相关文档