大数据分析与挖掘课后习题参考答案.pdfVIP

  • 441
  • 0
  • 约9.1万字
  • 约 49页
  • 2023-06-24 发布于湖北
  • 举报

大数据分析与挖掘课后习题参考答案.pdf

第2 章 习题 1. 如果在没经过预处理的数据集合上进行数据挖掘的话,会有哪些问题? 2. 假设原始数据服从正态分布,那么经过z -score 变换后的标准分大于 3 的概 率有多大? 3. 试分析Spark 预处理MaxabsScaler 、MinMaxScaler 的处理方法,并给出处理 后数据的取值范围。 4. 如题表 2-1 所示,从某个毕业班抽取出的 10 个同学的个人情况数据,包含 4 项特征:成绩绩点、身高、体重、工作月薪。利用两种以上的方法对每个 特征进行预处理。 题表 2-1 序号 成绩绩点 身高(m ) 体重(斤) 工作月薪(元/月) 1 3.2 1.78 130 6000 2 3.5 1.76 122 7000 3 3 1.73 135 5500 4 2.8 1.80 120 4000 5 3.7 1.85 113 10000 6 2.5 1.74 141 3200 7 3.6 1.69 156 8000 8 4 1.82 178 9000 9 3.3 1.90 114 15000 10 3.2 1.75 160 6500 5. 假设12 个销售价格记录如下:6,11,205,14,16,216,36,51,12,56,73,93 。 (1)使用等深划分时,将其划分为四个箱,16 在第几个箱? (2 )使用等宽划分时,将其划分为四个箱,16 在第几个箱? (3 )利用等深分箱法,将其划分为3 个箱,平均值平滑法进行平滑处理,第 2 个箱的取值为多少? (4 )利用等宽分箱法,将其划分为 3 个箱,边界平滑法进行平滑处理,第2 个箱内数据值为多少? 6. 取鸢尾花数据集(/~mlearn/MLRepository.html ),利用 pyspark 中的Bucketizer 函数,对四个数值型属性分别进行数据离散化。 7. 为了调查某个微信小程序受众人群分布情况,可采用哪些抽样方法?哪种方 法效果更好?请分析原因。 8. 给定m 个元素的集合,这些元素划分成了k 组,其中第i 组的大小为。如 果目标是得到容量为n (n m )的样本,下面两种抽样方案有什么区别?(假 定使用有放回抽样) (1)从每组随机地选择× /个元素。 (2 )从数据集中随机地选择n 个元素(不考虑元素属于哪个组)。 第二章 习题答案 1 无法保证数据挖掘的结果的有效性。 数据预处理主要包括数据清洗、数据集成、数据变换、数据归约等内容。 数据清洗:负责解决填充空缺值、识别孤立点、去掉噪声和无关数据等问 题; 数据集成:负责解决不同数据源的数据匹配问题、数值冲突问题和冗余问 题; 数据变换:将原始数据转换为适合数据挖掘的形式。包括数据的汇总、聚 集、概化、规范化,同时可能需要对属性进行重构; 数据归约:负责搜小数据的取值范围,使其更适合数据挖掘算法的需要。 2 原数据服从正态分布,经过Z-score 后,服从标准正态分布N(0,1) ,由正态

文档评论(0)

1亿VIP精品文档

相关文档