常见的6_第六讲(关联规则分析).ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常见的6_第六讲(关联规则分析)

多层关联——搜索策略(用来找频繁项集的方法) 递减支持度的多层关联规则法可使用三种搜索策略: 逐层独立(太松散):完全的宽度搜索,每一层的数据只跟当前层的最小支持度做比较,没有频繁项集的背景知识用于剪枝,好处在于方法简单,缺点是条件太松,导致底层需要考察大量非频繁数据,浪费计算多,效率极低 层交叉单项过滤法(折中):一个第i层的项被考察的条件是,当且仅当它在第(i-1)层的父节点是频繁的,即其满足最小支持度要求。其缺点在于有时父节点不满足当前层的最小支持度,但其子节点却满足他们子节点那一层的最小支持度,这时却被漏掉了考察 层交叉k项集过滤(太严格):一个第i层的k项集被考察,当且仅当它在第(i-1)层的对应父节点k-项集是频繁的,该方法的强限制性(没几个频繁模式满足该条件),致使很多有趣模式不被考察,进而不被挖掘。 三种搜索策略比较 逐层独立策略条件松,可能导致底层考察大量非频繁项 层交叉k项集过滤策略限制太强,仅允许考察频繁k-项集的子女 层交叉单项过滤策略是上述两者的折中,但仍可能丢失低层频繁项 受控的层交叉单项过滤策略 如何修正、改善折中的过滤策略呢? 人工设置一个层传递临界值,用于向较低层传递相对频繁的项。 即如果满足层传递临界值,则允许考察不满足最小支持度临界值的项的子女(虽然Computer支持度是10%,其不满足层最小支持度12%,但满足临界值8%,那么我们不考察Computer但允许考察其子女Lap和Desk) 用户对进一步控制多概念层上的挖掘过程有了更多的灵活性,同时减少无意义关联的考察和产生 Computer [support=10%] Laptop [support=6%] Desktop [support=4%] 第一层min_sup = 12% level_passage_support = 8% 第二层min_sup = 3% 检查冗余的多层关联规则 挖掘多层关联规则时,由于上下层项间的“祖先”关系,祖先对子孙是超集关系,有些发现的规则将是冗余的 例如: desktop computer = b/w printer [sup=8%, con=70%] (1) IBM desktop computer = b/w printer [sup=2%, con=72%] (2) 上例中,我们已知第一个规则是第二个规则的“祖先”,如果满足条件: IBM desktop computer在desktop computer中所占的比例是(1/4)刚好等于(2%除以8%),那么我们认为规则(2)是没什么用的,即冗余的,因为由已知条件“祖先”和“规则1”可以推导出其“后代”规则(2)。即:如果规则(2)中的项用它在概念分层中的“祖先”代替,能得到(1),而且(1)的支持度和置信度都接近“期望”值,则(1)是冗余的。 多维关联规则——基本概念 单维关联规则: buys(X, “milk”) = buys(X, “bread”),只涉及到buys这单个维 多维关联规则:涉及两个或多个维或谓词的关联规则 第一种:维间关联规则:不包含重复的谓词 age(X,”19-25”) ∧occupation(X,“student”) = buys(X,“coke”) 第二种:混合维关联规则:包含某些谓词的多次出现 age(X,”19-25”) ∧buys(X, “popcorn”) = buys(X, “coke”) 多维关联规则中根据属性值特点分为:分类属性和量化属性 分类属性:具有有限个不同值,值之间无序(例如occupation包含学生、教师、医生等等职业,职业间没有序的关系且个数有限) 量化属性:数值类型的值,并且值之间有一个隐含的序(例如age是19-25岁,但19-25之间有无数个值可挖掘,且有序) 挖掘多维关联规则--------基本技术 单维关联规则挖掘的是频繁项集,而在多维关联规则挖掘中,我们搜索的不是频繁项集,而是挖掘频繁谓词集。k-谓词集是包含k个合取谓词的集合。 例如:{面包、黄油、牛奶}是一个buys谓词下的频繁项集,是单维挖掘,而{age, occupation, buys}是一个3-谓词集,是多维挖掘 挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法: 1. 量化属性的静态离散化 使用预定义的概念分层对量化属性进行静态地离散化(例如在age上定义概念分层:青/中/老年,将无穷年龄数据离散化到这三个概念中) 2. 量化关联规则 根据数据的分布,将量化属性离散化到“箱”,类似前面分箱技术 3. 基于距离的关联规则 考虑数据点之间的距离,动态地离散化量化属性,使数据更加符合挖掘需要 多维关联规则挖掘方法(1)--使用量化属性的静态离散化 量化属性使用预定义的概念分层,在挖掘前进行离散化 数

文档评论(0)

dahunjun + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档