DATAMINING(CH2)预案.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与知识发现(第2版) (42-*) 多级关联规则 由于多维数据空间上的数据稀少,在低层或原始抽象级别上很难发现数据项间的强关联(Strong Associations)。 Han等人指出强关联在高层概念上可以描述通常意义的知识。 多级关联规则可以在不同的抽象空间上描述多层抽象知识。 数据挖掘与知识发现(第2版) (42-*) 多级关联规则 多级关联规则的挖掘可以沿用“支持度和信任度”的框架。 挖掘多级关联规则时可采用自上而下,深度优先的方法,由较抽象的概念层开始向下,到较低的具体概念层(如原始概念层),对每个概念层的频繁项集累加计数,直到再也找不到频繁项集为止。 Apriori算法及其变种算法均可以应用到每一级频繁项集的发现上。 多级关联规则模型分类: 所有级别采用统一的最小支持度阈值; 低级别上采用较小的最小支持度阈值。 数据挖掘与知识发现(第2版) (42-*) 多级关联规则 可以用如下几种策略来设置不同的支持度阈值。 1. 各级间相互独立。在深度优先的检索中没有任何频繁项集的背景知识用于剪枝。对每个节点的处理与其父节点是否为频繁项集无关。 2. 各级之间单项过滤。算法考察第i级项目的充分必要条件为(i–1)级的相应父节点为频繁项集。也就是在一般关联关系的基础上研究更详尽的关联规则。 3. 各级之间项集过滤。如果考察第i级的k项集,当且仅当(i–1)级的相应父节点中k项集为频繁项集。 数据挖掘与知识发现(第2版) (42-*) 多级关联规则 规则冗余问题 概念分层允许在不同抽象层上发现知识,所以多级关联规则在数据挖掘中能发挥较大的作用。但由于“祖先”关系的原因,有些规则可能是冗余的。 (1)如果同时挖掘到这两条规则且后者不能提供更新的信息,就把这个规则剔除。 (2)设规则R1是规则R2的祖先,如果通过修改R2的前件使之提升到上一级概念抽象后,能够得到规则R1,则规则R2就是冗余的,可以从规则集中把R2删去。 数据挖掘与知识发现(第2版) (42-*) 多维关联规则 在多维数据库中,将每个不同的谓词层称作维。 规则 购买(X, “牛奶”) ? 购买(X, “面包”) 为单维或者维内关联规则。 多维关联规则是涉及两个或多个属性或谓词的规则。 例如: 年龄(X,“20..30”) and 职业(X,“学生”) ? 购买(X,“笔记本电脑”) 如果在规则的每一维上使用不同的断言,就把包含两个或两个以上断言的关联规则称为多维关联规则。 如果规则中的断言不重复,就称这样的规则为维间关联规则(Interdimension Association rule); 如果规则中的断言可以重复,就称之为混合维关联规则(Hybrid-dimension Association Rule)。 数据挖掘与知识发现(第2版) (42-*) 数据属性与多维关联规则 数据库属性分为定性和定量两种。定性的属性有有限个可能取值;定量的属性不能给出确切取值范围的数量值。 数量属性的处理方法分为三种: (1)把数量值划分为若干个离散区间,用区间值描述数量属性,这样就可以把定量的问题转化为定性的问题。也就是通过数量属性静态离散化挖掘多维关联规则。 (2)离散化进程可以是动态的,这样的关联规则称为数量相关规则。 (3)如果在离散化时考虑数据点间的距离,就将这样的数量关联规则称为基于距离的关联规则。 数据挖掘与知识发现(第2版) (42-*) 关联规则价值衡量 对关联规则的评价与价值衡量涉及两个层面:系统客观的层面和用户主观的层面。 1. 系统客观层面 ①规则的兴趣度是在基于统计独立性假设下真正的强度与期望的强度之比。 ②收集强度(Collective Strength),使用“大于期望值”为条件来发现有意义的关联规则。项集的收集强度是[0, ?]区间上的一个数值,其中,0表示完备的否定相关性,? 表示完备的正相关性。 2. 用户主观层面 只有用户才能决定规则的有效性、可行性。可以采用基于约束的数据挖掘方法。具体约束的内容有: (1) 数据约束。用户可以指定数据挖掘的范围,而不一定是全部数据。 (2) 维和层次约束。用户可以指定在数据的某些维以及这些维的某些层次上进行数据挖掘。 (3) 规则约束。可以引入模板(Template)的概念,用以指定需要的规则类型。用户使用模板确定感兴趣的规则。如果一条规则与包含模板(Inclusive Template)相匹配,就是感兴趣的规则,如果一条规则与限制模板(Restrictive Template)相匹配,就是不感兴趣的规则。 数据

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档