数据挖掘(DM).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data mining Business Intelligence 数据挖掘与商务智能 课程内容 2 数据挖掘具体方法 基本概念:关联规则挖掘 关联规则:关联规则是形如X-Y的蕴涵表达式,其中X和Y是不相交的项集,即 。 关联规则挖掘:从一个数据集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。 实例 通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。例如,在同一次购物中,如果顾客购买牛奶的同时,也购买面包(和什么类型的面包)的可能性有多大? 这种信息可以引导销售,可以帮助零售商有选择地经销和安排货架。例如,将牛奶和面包尽可能放近一些,可以进一步引导客户在商店里同时购买这些商品。 一些基本定义 项集 一个或多个项的集合 如: {Milk, Bread, Diaper} k-项集 包含有k个子项的项集 支持度计数 (?) 一个项集在事务集中出现的频率 E.g. ?({Milk, Bread,Diaper}) = 2 支持度 包含某个项集的事务数量比例 E.g. s({Milk, Bread, Diaper}) = 2/5 频繁项集 支持度高于或等于阈值minsup的项集 一些基本定义 怎样进行关联规则挖掘 给定事务集T, 关联规则挖掘的任务就 是寻找满足以下条件的关联规则。 支持度 ≥ minsup threshold 置信度 ≥ minconf threshold 一种“原始野蛮”的方法: 列出所有的规则 分别计算每条规则的置信度和支持度 剔除未达到 minsup阈值和 minconf阈值的规则 ? Computationally prohibitive! 怎样进行关联规则挖掘 怎样进行关联规则挖掘 采用“两步走”的方法: 先产生频繁项集 即找出 support ? minsup的所有项集 生成规则 从频繁项集中产生具有高置信度的规则,每条规则本质上其实就是频繁项集的一个划分。 产生频繁项集的过程运算量仍然是非常大的! 怎样进行关联规则挖掘 原始的方法: 列出所有可能项集(如右图),即候选的频繁项集 扫描事务数据库(左图),计算每个候选项集的支持度。 将每个事务与候选项集相匹配,生成关联规则。 算法复杂度 ~ O(NMw) = Expensive since M = 2d !!! 算法复杂度 给定 d 个事务项: 项集的总数= 2d 可以生成的规则总数是: 如何降低产生频繁项集的计算复杂度 减少候选项集的数目 (M) 完全的搜索: M=2d 可以采用一些剪枝的方法减少 M 减少比较次数 (NM) 可以使用更高级的数据结构存储事务或候选项集 (Hash Tree) 有些事务和候选项集并不一定需要进行比较。 减少事务数目 (N) 减少候选项集的策略 先验原理: 如果一个项集是频繁的,则它的所有子集也一定是频繁的。即: 先验原理成立是因为支持度具有以下特性: 一个项集的支持度决不会超过其子集的支持度。 这个性质也称为支持度度量的反单调性。 先验原理应用示例(续…) Apriori算法(频繁项集的生成) Method: Let k=1 产生长度为1的频繁项集 重复以下过程直到没有新的频繁项集产生 从k 个频繁项集中生成长度为k+1的候选项集 对包含非频繁、且长度为k的子集的候选项集进行剪枝。 扫描数据库,统计每个候选项集的支持度 剔除非频繁项集,保留频繁项集 Apriori算法(规则的生成) 给定频繁项集L, 找到所有的非空子集f ? L 使得规则 f ? L – f 可以满足最小置信度的要求 如果{A,B,C,D}是一个频繁项集,则候选规则有: ABC ?D, ABD ?C, ACD ?B, BCD ?A, A ?BCD, B ?ACD, C ?ABD, D ?ABC AB ?CD, AC ? BD, AD ? BC, BC ?AD, BD ?AC, CD ?AB, 如果|L| = k,将有2k – 2个候选的关联规则(因为忽略了 L??和??L) Apriori算法(规则的生成) 怎样从频繁项集中高效的生成规则? 一般而言,置信度并不具有 单调性(这与支持度度量是不同的) 例如:c(ABC?D) can be larger or smaller than c(AB ?D) 但如果是由同一个候选项集产生的规则则具有单调性 如, L = {A,B,C,D}: c(ABC ? D) ? c(AB ? CD) ? c(A ? BCD) 因为当 时,显然 Apr

文档评论(0)

wxc6688 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档