数据挖掘概念与技术习题答案第3章.docx

数据挖掘概念与技术习题答案第3章.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术(原书第 3 版) 第三章课后习题及解答 习题 数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提出数据质量的两个其他尺度。 答: 数据的质量依赖于数据的应用。 准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有 80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。 一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。 数据质量的另外三个尺度是时效性,可解释性,可信性。 在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。 答:对于有缺失值的元组,当前有 6 种处理的方法: 忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。 人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时, 该方法可能行不通。 使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“unknown”或 ) 替换。如果缺失值都用“unknown”替换,则挖掘程序可能误以为它们形成了一个有 趣的概念,因为它们都具有相同的值——“unknown”。因此,尽管该方法简单,但 是并不十分可靠。 使用属性的中心度量(如均值或中位数)填充缺失值:第 2 章讨论了中心趋势度量, 它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以使用均值, 而倾斜分布的数据则应使用中位数。。 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。 在习题中,属性 age 包括如下值(以递增序):13,15,16,16,19,20,20, 21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45, 46,52,70. 使用深度为 3 的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。 答:首先将排好序的 age 数据划分到大小为 3 的等频的箱中,如下: 13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33, 35;35,35,35;36,40,45;46,52,70. 其次用箱均值光滑数据: 13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33, 35;35,35,35;36,40,45;46,52,70. ,,;,,;21,21,21;24,24,24;,,;,,;35,35,35;,,;56, 56,56 箱均值光滑技术确实使给定的数据光滑了。 如何确定该数据中的离群点 答:可以用聚类来检测离群点。聚类将类似的值组织成群或“簇”,直观的,落在簇之外的值被视为离群点。 还有什么其他方法来光滑数据答:还可以用回归来光滑数据。 讨论数据集成需要考虑的问题。 答:1.实体识别问题;2.冗余和相关分析;3.元组重复;4.数据值冲突的检测与处理。 如下规范化方法的值域是什么 (a)最小 最大规范化 (b)z 分数规范化 (c)z 分数规范化,使用均值绝对偏差而不是标准差 (d)小数定标规范化答: 最小 最大规范化:[指定的最小,最大值] z 分数规范化:( ∞,+∞) z 分数规范化,使用均值绝对偏差而不是标准差:( ∞,+∞) 小数定标规范化:(1 ,1) 使用如下方法规范化如下数据组: 200,300,400,600,1000 (a)另 min=0,max=1,最小 最大规范化 (b)z 分数规范化 (c)z 分数规范化,使用均值绝对偏差而不是标准差 (d)小数定标规范化答: (a)另 min=0,max=1,最小 最大规范化 200 变为 0 300 变为(300200 )/(1000200 )*(10 )+0= 400 变为(400200 )/(1000200 )*(10 )+0= 600 变为(600200 )/(1000200 )*(10 )+0= 1000 变为(1000200 )/(1000200 )*(10 )+0=1 规范化后的数据组为:0,,,,1 (b)z 分数规范化 求得数据组均值为 500,标准差为200 变为 300 变为 400 变为 600 变为 1000 变为 规范化后的数据组为:,,,, (c)z 分数规范化,使用均值绝

文档评论(0)

dqy118 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体上海海滋实业有限公司
IP属地湖北
统一社会信用代码/组织机构代码
91310115MA7DL1JF2N

1亿VIP精品文档

相关文档