大数据分析与挖掘课后习题参考答案.pdfVIP

下载本文档

441
0
约9.1万字
约 49页
2023-06-24 发布于湖北
举报

大数据分析与挖掘课后习题参考答案.pdf

第2 章习题 1. 如果在没经过预处理的数据集合上进行数据挖掘的话，会有哪些问题？ 2. 假设原始数据服从正态分布，那么经过z -score 变换后的标准分大于 3 的概率有多大？ 3. 试分析Spark 预处理MaxabsScaler 、MinMaxScaler 的处理方法，并给出处理后数据的取值范围。 4. 如题表 2-1 所示，从某个毕业班抽取出的 10 个同学的个人情况数据，包含 4 项特征：成绩绩点、身高、体重、工作月薪。利用两种以上的方法对每个特征进行预处理。题表 2-1 序号成绩绩点身高（m ）体重（斤）工作月薪（元/月） 1 3.2 1.78 130 6000 2 3.5 1.76 122 7000 3 3 1.73 135 5500 4 2.8 1.80 120 4000 5 3.7 1.85 113 10000 6 2.5 1.74 141 3200 7 3.6 1.69 156 8000 8 4 1.82 178 9000 9 3.3 1.90 114 15000 10 3.2 1.75 160 6500 5. 假设12 个销售价格记录如下：6,11,205,14,16,216,36,51,12,56,73,93 。（1）使用等深划分时，将其划分为四个箱，16 在第几个箱？（2 ）使用等宽划分时，将其划分为四个箱，16 在第几个箱？（3 ）利用等深分箱法，将其划分为3 个箱，平均值平滑法进行平滑处理，第 2 个箱的取值为多少？（4 ）利用等宽分箱法，将其划分为 3 个箱，边界平滑法进行平滑处理，第2 个箱内数据值为多少？ 6. 取鸢尾花数据集（/~mlearn/MLRepository.html ），利用 pyspark 中的Bucketizer 函数，对四个数值型属性分别进行数据离散化。 7. 为了调查某个微信小程序受众人群分布情况，可采用哪些抽样方法？哪种方法效果更好？请分析原因。 8. 给定m 个元素的集合，这些元素划分成了k 组，其中第i 组的大小为。如果目标是得到容量为n （n m ）的样本，下面两种抽样方案有什么区别？（假定使用有放回抽样）（1）从每组随机地选择× /个元素。（2 ）从数据集中随机地选择n 个元素（不考虑元素属于哪个组）。第二章习题答案 1 无法保证数据挖掘的结果的有效性。数据预处理主要包括数据清洗、数据集成、数据变换、数据归约等内容。数据清洗：负责解决填充空缺值、识别孤立点、去掉噪声和无关数据等问题；数据集成：负责解决不同数据源的数据匹配问题、数值冲突问题和冗余问题；数据变换：将原始数据转换为适合数据挖掘的形式。包括数据的汇总、聚集、概化、规范化，同时可能需要对属性进行重构；数据归约：负责搜小数据的取值范围，使其更适合数据挖掘算法的需要。 2 原数据服从正态分布，经过Z-score 后，服从标准正态分布N(0,1) ，由正态

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据分析与挖掘课后习题参考答案.pdfVIP