- 2
- 0
- 约2.84千字
- 约 5页
- 2026-05-19 发布于山东
- 举报
大数据挖掘工程师考试试卷及答案
一、填空题(共10题,每题1分)
1.Hadoop生态中,负责分布式存储的核心组件是______。
2.Spark的核心数据抽象是______。
3.K-Means算法属于______学习算法。
4.数据预处理中,缺失值填充常用的方法有均值填充、中位数填充和______填充。
5.Hive中用于定义表结构的语句是______。
6.决策树算法中,衡量特征分裂质量的指标有信息增益、增益率和______。
7.SparkSQL中,支持的分布式数据格式包括Parquet、ORC和______。
8.数据挖掘中,“80/20规则”通常指______占比20%,______占比80%。
9.分布式计算框架中,MapReduce的两个核心阶段是______和______。
10.特征工程中,对类别型特征进行编码的常用方法有One-Hot编码和______编码。
填空题答案
1.HDFS2.RDD(弹性分布式数据集)3.无监督4.众数5.CREATETABLE6.基尼系数7.Avro8.有用数据;噪声/冗余数据9.Map;Reduce10.Label(标签)
二、单项选择题(共10题,每题2分)
1.以下哪个不是Hadoop生态组件?
A.HDFSB.MapReduceC.SparkD.Hive
2.K-Means算法中,初始聚类中心选择更合理的方法是?
A.随机
您可能关注的文档
- 调酒师高级技师考试试卷及答案.doc
- 调酒师考试试卷及答案.doc
- 磁浮列车驾驶工程师考试试卷及答案.doc
- 磁浮列车司机考试试卷及答案.doc
- 催化剂研发工程师考试试卷及答案.doc
- 催乳师考试试卷及答案.doc
- 打磨车间安全生产管理员岗位招聘考试试卷及答案.doc
- 打磨除尘系统调试工程师岗位招聘考试试卷及答案.doc
- 打磨除尘系统运维技师岗位招聘考试试卷及答案.doc
- 打磨机器人安全系统调试师岗位招聘考试试卷及答案.doc
- 传媒行业5月投资策略:关注AI应用叙事逻辑改善可能,把握游戏与IP潮玩底部机会.docx
- 家电行业转型AI算力专题:家电行业焕发新生,AI算力跨界掘金正当时.docx
- 家电行业周报:安克发布新品Solarbank 4,重新定义阳台光储.docx
- 纺织服装2025年报&26一季报总结:消费复苏渐显,制造景气承压.docx
- 食品饮料行业年度策略:筑底渐明,修复启航.docx
- 食品饮料行业深度报告:乳业周期筑底,内蒙古集群向新.docx
- 消费出海系列深度(五):品牌出海梳理——“长期主义”下的出海选择.docx
- 农林牧渔行业专题报告:生猪供需和成本的十万个为什么.docx
- 2025年中国热泵产业发展年鉴.docx
- 电力设备与新能源行业周报:AIDC、空天、工控、锂电汇聚风口,风电、BC低位值得关注.docx
原创力文档

文档评论(0)