- 441
- 0
- 约9.1万字
- 约 49页
- 2023-06-24 发布于湖北
- 举报
第2 章 习题
1. 如果在没经过预处理的数据集合上进行数据挖掘的话,会有哪些问题?
2. 假设原始数据服从正态分布,那么经过z -score 变换后的标准分大于 3 的概
率有多大?
3. 试分析Spark 预处理MaxabsScaler 、MinMaxScaler 的处理方法,并给出处理
后数据的取值范围。
4. 如题表 2-1 所示,从某个毕业班抽取出的 10 个同学的个人情况数据,包含
4 项特征:成绩绩点、身高、体重、工作月薪。利用两种以上的方法对每个
特征进行预处理。
题表 2-1
序号 成绩绩点 身高(m ) 体重(斤) 工作月薪(元/月)
1 3.2 1.78 130 6000
2 3.5 1.76 122 7000
3 3 1.73 135 5500
4 2.8 1.80 120 4000
5 3.7 1.85 113 10000
6 2.5 1.74 141 3200
7 3.6 1.69 156 8000
8 4 1.82 178 9000
9 3.3 1.90 114 15000
10 3.2 1.75 160 6500
5. 假设12 个销售价格记录如下:6,11,205,14,16,216,36,51,12,56,73,93 。
(1)使用等深划分时,将其划分为四个箱,16 在第几个箱?
(2 )使用等宽划分时,将其划分为四个箱,16 在第几个箱?
(3 )利用等深分箱法,将其划分为3 个箱,平均值平滑法进行平滑处理,第
2 个箱的取值为多少?
(4 )利用等宽分箱法,将其划分为 3 个箱,边界平滑法进行平滑处理,第2
个箱内数据值为多少?
6. 取鸢尾花数据集(/~mlearn/MLRepository.html ),利用
pyspark 中的Bucketizer 函数,对四个数值型属性分别进行数据离散化。
7. 为了调查某个微信小程序受众人群分布情况,可采用哪些抽样方法?哪种方
法效果更好?请分析原因。
8. 给定m 个元素的集合,这些元素划分成了k 组,其中第i 组的大小为。如
果目标是得到容量为n (n m )的样本,下面两种抽样方案有什么区别?(假
定使用有放回抽样)
(1)从每组随机地选择× /个元素。
(2 )从数据集中随机地选择n 个元素(不考虑元素属于哪个组)。
第二章 习题答案
1
无法保证数据挖掘的结果的有效性。
数据预处理主要包括数据清洗、数据集成、数据变换、数据归约等内容。
数据清洗:负责解决填充空缺值、识别孤立点、去掉噪声和无关数据等问
题;
数据集成:负责解决不同数据源的数据匹配问题、数值冲突问题和冗余问
题;
数据变换:将原始数据转换为适合数据挖掘的形式。包括数据的汇总、聚
集、概化、规范化,同时可能需要对属性进行重构;
数据归约:负责搜小数据的取值范围,使其更适合数据挖掘算法的需要。
2
原数据服从正态分布,经过Z-score 后,服从标准正态分布N(0,1) ,由正态
您可能关注的文档
- 铁皮风管防火包裹做法.ppt
- 学生素质评价记录及分析报告模版.doc
- [染色体](5)染色体核型、微阵列、高通量测序、FISH等检测手段的具体区别.pdf
- 信息技术与教育教学深度融合_2.doc
- 小升初简历中自我介绍(精选10篇).pdf
- 幼儿园音乐《厨房音乐会》学习反思.doc
- 泊秦淮全诗完整版.doc
- 人教四年级数学应用题100带答案解析.doc
- 梦游天姥吟留别_3.ppt
- 古代文学史考试重点 宋代文学.doc
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
原创力文档

文档评论(0)