数据挖掘第三章.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘第三章,数据结构第三章答案,数据库第三章习题答案,数据结构第三章,数据挖掘,数据挖掘算法,数据挖掘概念与技术,数据挖掘技术学习,数据挖掘导论,数据挖掘分析工具

逐步向前选择:该过程由空集作为规约集开始,确定原属性集中最好的属性,并将它添加到规约集中。在其后的每一次迭代,将剩下的原属性集中的最好的属性添加到该集合中。 逐步向后删除:该过程由整个属性集开始,在每一步中,删除尚在属性集中最差的属性。 逐步向前选择和逐步向后删除组合:两种方法组合,每一步选择一个最好的属性同时在剩余的属性中删除一个最差的属性。 决策树归纳:决策树归纳构造一个类似于流程图的结构,其中每个内部节点表示一个属性上的测试,每个分支对应测试的一个结果;每个外部节点表示一个类预测。在每个节点上,算法选择最好的属性,将数据划分成类。 现在你收集到了ALLElectronics2008-2010年每季度的销售数据组成。然而,你感兴趣的是年销售。于是对每年的销售聚集,形成年销售额。 2008年 季度 销售额 Q1 224000美元 Q2 408000美元 Q3 350000美元 Q4 586000美元 2009年 2010年 年 销售额 2008 1568000 2009 2356000 2010 3594000 3.2.3 数据清理作为一个过程 数据清理是一项繁重的任务,如何正确的进行这项工作? 数据清理过程的第一步是偏差检测。 使用任何已知的关于数据性质的知识(也叫元数据)发现噪声、离群点和不寻常的值。 作为数据分析人员,应当警惕数据表示的不一致(如日期2010/12/25和25/12/2010) 字段过载是数据偏差的另一种来源(开发者将新属性的定义挤进已经定义的属性的未使用部分) 还应当根据唯一性、连续性规则和空值规则考察数据。 进行偏差检测的商业工具:数据清洗工具、数据审计工具、数据迁移工具、ETL(提取变换)工具。 标称数据的X2相关检验 对于标称数据,两个属性A和B之间的相关联系可以通过X2检验发现。假设A有c个不同值a1,a2,…,ac,B有r个不同值b1,b2,…,br.用A和B描述的数据元组可以用一个相依表显示,其中A中的c个值构成列,B的r个值构成行。(Ai,Bj)表示A取值ai、属性B取值bj的联合事件。 X2可以用下列公式计算: 其中,Oij是联合事件(Ai,Bj)的观测频度(即实际计数),而eij是(Ai,Bj)的期望频度,可以用下列式子计算: 其中,n是数据元组的个数,count(A=ai)是A上具有值ai的元组的个数,而count(B=bj)是B上具有值bj的元组个数。 注意,对卡方值贡献最大的单元是实际计数与期望计数很不相同的单元。 卡方统计检验假设A和B是独立的。具有自由度(r-1)*(c-1).如果拒绝该假设,则A和B是统计相关的。 例3.1 假设调查了1500个人,记录了每个人的性别。每个人对喜爱的阅读材料类型是否是小说进行投票。每种可能的联合事件的观测频率汇总在表中,其中()中的数是期望频率。 男 女 合计 小说 250(90) 200(360) 450 非小说 50(210) 1000(840) 1050 合计 300 1200 1500 使用期望频度公式,我们可以验证每个单元的期望频率。例如,单元(男,小说)的期望频率是 使用计算卡方的公式,我们得到 对于这个2*2的表,自由度为(2-1)(2-1)=1.对于自由度为1,在0.001的置信水平下,拒绝假设值为10.828,由于我们计算的值大于该值,因此我们拒绝这两个属性独立的假设,并断言对于给定人群,这两个属性相关。 2.数值数据的相关系数 对于数值数据,我们可以计算属性A和B的相关系数,估计这两个属性的相关度rA,B 其中,n是元组的个数,ai和bi分别是元组i在A和B上的值, 和 分别是A和B的均值, 和 分别是A和B的标准差。 注意,-1≤rA,B ≤+1.如果rA,B 大于0,则A和B是正相关的,A随B的增加而增加。该值越大,相关性越强。因此,一个较高的rA,B 值表明A(B)可以作为冗余被删除。如果该值等于0,则A和B是独立的。如果小于0,则是负相关,A随B的增加而减小。 3.数值数据的协方差 考虑两个数值属性A、B和n次观测的集合{(a1,b1),…,(an,bn)}.A和B的均值又分别称为A和B的期望值,即 且 ,那么A和B的协方差定义为 (3.4) 如果我们把rA,B的公式与(3.4)式组合,则有 还可以对(3.4)式进行简化 对于两个趋向于一起改变的属性A和B,如果A

文档评论(0)

mydoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档