6-第六讲(关联规则分析).pptVIP

下载本文档

18
0
约1.55万字
约 54页
2018-10-15 发布于河北
举报
版权申诉

6-第六讲(关联规则分析).ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

6-第六讲(关联规则分析)

多层关联——搜索策略（用来找频繁项集的方法）递减支持度的多层关联规则法可使用三种搜索策略：逐层独立（太松散）：完全的宽度搜索，每一层的数据只跟当前层的最小支持度做比较，没有频繁项集的背景知识用于剪枝，好处在于方法简单，缺点是条件太松，导致底层需要考察大量非频繁数据，浪费计算多，效率极低层交叉单项过滤法（折中）：一个第i层的项被考察的条件是，当且仅当它在第（i-1）层的父节点是频繁的，即其满足最小支持度要求。其缺点在于有时父节点不满足当前层的最小支持度，但其子节点却满足他们子节点那一层的最小支持度，这时却被漏掉了考察层交叉k项集过滤（太严格）：一个第i层的k项集被考察，当且仅当它在第(i-1)层的对应父节点k-项集是频繁的，该方法的强限制性（没几个频繁模式满足该条件），致使很多有趣模式不被考察，进而不被挖掘。三种搜索策略比较逐层独立策略条件松，可能导致底层考察大量非频繁项层交叉k项集过滤策略限制太强，仅允许考察频繁k-项集的子女层交叉单项过滤策略是上述两者的折中，但仍可能丢失低层频繁项受控的层交叉单项过滤策略如何修正、改善折中的过滤策略呢？人工设置一个层传递临界值，用于向较低层传递相对频繁的项。即如果满足层传递临界值，则允许考察不满足最小支持度临界值的项的子女（虽然Computer支持度是10%，其不满足层最小支持度12%，但满足临界值8%，那么我们不考察Computer但允许考察其子女Lap和Desk）用户对进一步控制多概念层上的挖掘过程有了更多的灵活性，同时减少无意义关联的考察和产生 Computer [support=10%] Laptop [support=6%] Desktop [support=4%] 第一层min_sup = 12% level_passage_support = 8% 第二层min_sup = 3% 检查冗余的多层关联规则挖掘多层关联规则时，由于上下层项间的“祖先”关系，祖先对子孙是超集关系，有些发现的规则将是冗余的例如： desktop computer = b/w printer [sup=8%, con=70%] (1) IBM desktop computer = b/w printer [sup=2%, con=72%] (2) 上例中，我们已知第一个规则是第二个规则的“祖先”，如果满足条件： IBM desktop computer在desktop computer中所占的比例是(1/4)刚好等于(2%除以8%)，那么我们认为规则(2)是没什么用的，即冗余的，因为由已知条件“祖先”和“规则1”可以推导出其“后代”规则(2)。即：如果规则(2)中的项用它在概念分层中的“祖先”代替，能得到(1)，而且(1)的支持度和置信度都接近“期望”值，则(1)是冗余的。多维关联规则——基本概念单维关联规则： buys(X, “milk”) ＝ buys(X, “bread”)，只涉及到buys这单个维多维关联规则：涉及两个或多个维或谓词的关联规则第一种：维间关联规则：不包含重复的谓词 age(X,”19-25”) ∧occupation(X,“student”) = buys(X,“coke”) 第二种：混合维关联规则：包含某些谓词的多次出现 age(X,”19-25”) ∧buys(X, “popcorn”) = buys(X, “coke”) 多维关联规则中根据属性值特点分为：分类属性和量化属性分类属性：具有有限个不同值，值之间无序（例如occupation包含学生、教师、医生等等职业，职业间没有序的关系且个数有限）量化属性：数值类型的值，并且值之间有一个隐含的序（例如age是19-25岁，但19-25之间有无数个值可挖掘，且有序）挖掘多维关联规则--------基本技术单维关联规则挖掘的是频繁项集，而在多维关联规则挖掘中，我们搜索的不是频繁项集，而是挖掘频繁谓词集。k-谓词集是包含k个合取谓词的集合。例如：{面包、黄油、牛奶}是一个buys谓词下的频繁项集，是单维挖掘，而{age, occupation, buys}是一个3-谓词集，是多维挖掘挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法： 1. 量化属性的静态离散化使用预定义的概念分层对量化属性进行静态地离散化(例如在age上定义概念分层:青/中/老年，将无穷年龄数据离散化到这三个概念中) 2. 量化关联规则根据数据的分布，将量化属性离散化到“箱”，类似前面分箱技术 3. 基于距离的关联规则考虑数据点之间的距离，动态地离散化量化属性，使数据更加符合挖掘需要多维关联规则挖掘方法（1）--使用量化属性的静态离散化量化属性使用预定义的概念分层，在挖掘前进行离散化数