- 0
- 0
- 约4.48千字
- 约 12页
- 2026-05-10 发布于辽宁
- 举报
2026年海致大数据初级班测试题及答案
一、填空题(总共10题,每题2分)
1.数据挖掘的四个基本步骤分别是______、数据预处理、数据分析和模型评估。
2.在大数据处理中,Hadoop的核心组件包括______和HDFS。
3.机器学习的三种主要学习方法包括监督学习、______和非监督学习。
4.数据库的三NF(ThirdNormalForm)要求每个非主属性都不传递依赖于候选键。
5.在数据预处理中,处理缺失值的方法主要有删除法、______和插补法。
6.决策树算法中,常用的分裂标准有信息增益、______和基尼不纯度。
7.在分布式计算中,MapReduce模型包括两个主要阶段:Map阶段和______。
8.数据仓库的典型架构包括数据层、______和应用层。
9.在自然语言处理中,词袋模型(BagofWords)是一种常用的文本表示方法。
10.机器学习中的过拟合现象是指模型在训练数据上表现很好,但在______上表现较差。
二、判断题(总共10题,每题2分)
1.数据挖掘的目标是从大量数据中发现潜在的模式和关联。(正确)
2.Hadoop是一个开源的分布式存储系统。(正确)
3.决策树算法是一种非监督学习方法。(错误)
4.数据库的第一范式(FirstNormalForm)要求每个表都有一个主键。(正确)
5.在数据预
原创力文档

文档评论(0)