数据挖掘课件..ppt

  1. 1、本文档共109页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘课件.

* 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 通过数字概化,尽管细节丢失,但概化后的数据更有意义、更容易解释,并且所需的空间比原数据少。在归约的数据上进行挖掘,与在大的、未概化的数据上挖掘相比,所需的I/O操作更少、更有效。 * 数值数据的离散化和概念分层生成 分箱、递归的:比如将10,000个值,每个箱子中放10个,则可以将其规约为1000个值;如果要求将这10,000个值规约为10个概念,则只要将上述分箱方法递归的使用3次就可以了。 * 分类数据的概念分层生成 分类数据是指无序的离散数据,它有有限个值(可能很多个)。 分类数据的概念分层生成方法: 由用户或专家说明属性的部分序。 说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。 * 2.4.6 数据归约在数据挖掘过程中所扮演的角色 狭义而言:主要应用在数据预处理阶段 (pre-processing phase) 广义而言:整个数据挖掘过程都可以应用数据规约的技术 预处理阶段(pre-processing phase) 挖掘阶段(mining phase) 后期处理阶段(post-processing phase) * 预处理阶段的数据规约 从数据库或数据仓库中选取并建立使用者感兴趣的数据集合 从数据集合中滤掉一些无关、偏差、重复的数据 挖掘阶段的数据规约 挖掘处理过程中去除不具代表性的中介信息或规则,进而缩小挖掘过程中所需花费的时间,减少产生重复、不重要的知识 后期处理阶段的数据规约 根据使用者的需求,由挖掘结果中选取其感兴趣和相关的知识,以及透过可视化技术将知识作适当的归纳、整合,让使用者更方便快速了解发展趋势、市场偏向、消费者群集等等,以帮助其作决策 * 2.5 以购物网站所用的数据库为例 数据库中 记录顾客所买的每样商品数据,包括:交易编号、会员账号、商品编号、交易时间、交易数量、付款方式 若分析顾客同一天购买的商品间关连性,目前交易表内所存的数据格式并无法直接套用关联规则挖掘算法,要经以下步骤转化 Step 1 - 选取相关属性:选出会员账号、商品编号、交易时间三个属性。 Step 2 – 数据规约:将精确至年月日时分秒的交易时间简化为只包含年月日的交易日期。 Step 3- 转换数据形式:依照会员账号及交易日期将同一会员同一天的交易纪录集合成一笔交易形式的数据。 * 习 题 1数据的质量可以用精确性,完整性和一致性来评估。提出两种数据质量的其他尺度 。 2在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。 4 讨论数据集成需要考虑的问题。 * 3 . 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70 a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。评论对于给定的数据,该技术的效果 b) 你怎样确定数据中的孤立点? c) 对于数据平滑,还有那些其他方法? * 5. 使用习题3给出的age数据,回答以下问题: (a) 使用最小-最大规范化,将age值35转换到[0.0,1.0]区间 (b) 使用z-score规范化转换age 值35,其中age的标准差为12.94年 (c) 使用小数定标规范化转换age值35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。 * 1.数据的质量可以用精确性,完整性和一致性来评估。提出两种数据质量的其他尺度。 答:一般,数据的质量可以用精确性,完整性和一致性来评估,但现实中,又可以找到其他的一些尺度,如,数据是否集成,也就是是否可以由其他属性导出另外的属性,还有,数据是否规范,数据是否规格化,由此我们可以得出数据质量的尺度有:集成性,规范性。 * 2在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。 答:1)忽略元组 2)人工填写空缺值 3)使用一个全局常量填充空缺值 4)使用属性的平均值填充空缺值 5)使用与给定元组属同一类的所有样本的平均值 6)使用最可能的值填充空缺值 其中,方法3到6使数据倾斜,填入的值可能不正确。不过,方法6是最常用的方法 * 3 答:箱1:14.6,14.6,14.6 箱2: 18.3,18.3,18.3 箱3: 21,21,21 箱4: 24

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档