- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
规则内容约束的分类 基于约束推进能力(constraint pushing capability) 反单调: 若约束 c 不满足, 可中止进一步的挖掘,所有超级均不满足约束c 单调: 若c 满足, 不必再检查 c ,所有的超集均满足c 数据反单调: 若事务 t 不满足约束 c, t 不必进一步挖掘 简洁的(Succinct): c 必须满足, 可从约束 c先考察 可转换的: c 既非单调也非反单调, 按项集中特定项排序,约束可以成为单调或反单调的 具有多种约束的挖掘实例 在2004年,chicago的顾客购买什么样的便宜商品(价格和低于100美元)会促进同类贵商品的销售(最低价为500美元)? Sales(customer_name,item_name,TID) Lives_in(customer_name,region,city) item(item_name,group,price) transactions(TID,day,month,year) 事实表 总结 频繁模式挖掘-关联规则的重要任务 频繁模式挖掘方法 Apriori(生成候选测试) 基于投影(FP Growth) 垂直格式方法 挖掘各种类型的关联规则:多维、多层关联规则挖掘 基于约束的挖掘(人为指定) 关联规则的相关性:兴趣度的度量 * AA12 关联规则 史忠植 * 关联规则改进 Lin等人提出解决规则挖掘算法中的数据倾斜问题,从而使算法具有较好的均衡性。Park等人提出把哈希表结构用于关联规则挖掘。 Agrawal首先提出事务缩减技术,Han和Park等人也分别在减小数据规模上做了一些工作。 抽样的方法是由Toivonen提出的。 Brin等人采用动态项集计数方法求解频繁项集。 Aggarwal提出用图论和格的理论求解频繁项集的方法。Prutax算法就是用格遍历的办法求解频繁项集。 * AA12 关联规则 史忠植 * 关联规则改进 关联规则模型有很多扩展,如顺序模型挖掘,在顺序时间段上进行挖掘等。 还有挖掘空间关联规则,挖掘周期性关联规则,挖掘负关联规则,挖掘交易内部关联规则等。 Guralnik提出顺序时间段问题的形式描述语言,以便描述用户感兴趣的时间段,并且构建了有效的数据结构SP树(顺序模式树)和自底向上的数据挖掘算法。 最大模式挖掘是Bayardo等人提出来的。 * AA12 关联规则 史忠植 * 关联规则改进 随后人们开始探讨频率接近项集。Pei给出了一种有效的数据挖掘算法。 B.?zden等人的周期性关联规则是针对具有时间属性的事务数据库,发现在规律性的时间间隔中满足最小支持度和信任度的规则。 贝尔实验室的S.Ramaswamy等人进一步发展了周期性关联规则,提出挖掘符合日历的关联规则(Calendric Association Rules)算法,用以进行市场货篮分析。 * 关联规则改进 T.Hannu等人把负边界引入规则发现算法中,每次挖掘不仅保存频繁项集,而且同时保存负边界,达到下次挖掘时减少扫描次数的目的。 Srikant等人通过研究关联规则的上下文,提出规则兴趣度尺度用以剔除冗余规则。 Zakia还用项集聚类技术求解最大的近似潜在频繁项集,然后用格迁移思想生成每个聚类中的频繁项集。 CAR,也叫分类关联规则,是Lin等人提出的一种新的分类方法,是分类技术与关联规则思想相结合的产物,并给出解决方案和算法。 * * 关联规则改进 Cheung等人提出关联规则的增量算法。 Thomas等人把负边界的概念引入其中,进一步发展了增量算法。如,基于Apriori框架的并行和分布式数据挖掘算法。 Oates等人将MSDD算法改造为分布式算法。还有其他的并行算法,如利用垂直数据库探求项集聚类等。 Data Mining Yihua Tan * 挖掘各种关联规则 内 容 多层关联规则 多维关联规则 约束性关联规则 总结 关联规则改进 * AA12 关联规则 史忠植 * 挖掘多种规则或规律 多层(Multi-level),量化(quantitative)关联规则, 相关(correlation)和因果(causality), 比率(ratio)规则, 序列 (sequential) 模式,浮现(emerging)模式, temporal associations, 局部周期(partial periodicity) 分类(classification),聚类(clustering),冰山立方体( iceberg cubes), 等等. 多层关联规则 项通常形成分层结构 低层的项通常有低支持度. 基于维数和层级可对事务数据库编码 利用共享的多级挖掘 一致支持度 computer [suppor
您可能关注的文档
- 输血小板的指征和危险讲述.ppt
- 输血指南讲述.ppt
- 输液安全与不合理用药的临床干预讲述.ppt
- 输液反应的处理讲述.ppt
- 输液反应及护理讲述.ppt
- 输液反应与药物不良反应的区别讲述.ppt
- 输液港并发症及处理讲述.ppt
- 输液渗漏讲述.ppt
- 输液性静脉炎的护理预防讲述.ppt
- 输液性静脉炎的预防讲述.ppt
- 北师大版小学数学三年级上册《寄书》教学设计.docx
- 统编版(部编版)语文二年级上册《雪孩子》教学设计.docx
- 统编版(部编版)语文二年级上册《八角楼上》教学设计.docx
- 北师大版小学数学三年级上册《长方形周长》教学设计.docx
- 北师大版小学数学三年级上册《丰收了》教学设计.docx
- 统编版(部编版)语文二年级上册《夜宿山寺》教学设计.docx
- 统编版(部编版)语文二年级上册《风娃娃》教学设计.docx
- 统编版(部编版)语文二年级上册《朱德的扁担》教学设计.docx
- 统编版(部编版)语文二年级上册《难忘的泼水节》教学设计.docx
- 统编版(部编版)语文二年级上册《纸船和风筝》教学设计.docx
文档评论(0)