决策支持系统的核心数据挖.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2 数据挖掘功能——关联规则 Apriori算法 剪枝步 Ck是Lk的超集,即它的成员不一定都是频繁项集,但所有的频繁k-项集都包含在Ck中 扫描数据库,确定Ck中每个候选项集的计数,从而确定Lk 。然而, Ck可能很大,这样所涉及的计算量就很大。 第29页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 Apriori算法 剪枝步 为了压缩 Ck ,可利用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,若一个候选k-项集的(k-1)-项子集不在 Lk-1中,则该候选也不可能是频繁的,从而可以从 Ck 中删除。 第30页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 【例】一个Apriori的具体例子,该例基于右图某商店的事务DB。DB中有9个事务,Apriori假定事务中的项按字典次序存放。 TID 项ID的列表 T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1,I3 T800 I1,I2,I3,I5 T900 I1,I2,I3 第31页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (1)在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法简单地扫描所有的事务,对每个项的出现次数计数。 扫描D,对每个候选计数 项集 支持度计数 {I1} 6 {I2} 7 {I3} 6 {I4} 2 {I5} 2 C1 第32页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (2)设最小支持计数为2,可以确定频繁1-项集的集合Lk-1。它由具有最小支持度的候选1-项集组成。 项集 支持度计数 {I1} 6 {I2} 7 {I3} 6 {I4} 2 {I5} 2 比较候选支持度计数与最小支持度计数 L1 第33页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (3)为发现频繁2-项集的集合L2,算法使用 产生候选2-项集集合C2。 L1 L1 项集 {I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5} C2 由L1产生候选C2 第34页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (4)扫描D中事务,计算C2中每个候选项集的支持计数。 项集 支持度计数 {I1,I2} 4 {I1,I3} 4 {I1,I4} 1 {I1,I5} 2 {I2,I3} 4 {I2,I4} 2 {I2,I5} 2 {I3,I4} 0 {I3,I5} 1 {I4,I5} 0 扫描D,对每个候选计数 C2 第35页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (5)确定频繁2-项集的集合L2,它由具有最小支持度的C2中的候选2-项集组成。 项集 支持度计数 {I1,I2} 4 {I1,I3} 4 {I1,I5} 2 {I2,I3} 4 {I2,I4} 2 {I2,I5} 2 比较候选支持度计数与最小支持度计数 L2 第36页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (6)候选3-项集的集合C3的产生如下: ①连接: C3= = {{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}} {{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},I2,I5}} = {{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}} L2 L2 第37页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (6)候选3-项集的集合C3的产生如下: ②利用Apriori性质剪枝:频繁项集的所有子集必须是频繁的。存在候选项集,判断其子集是否频繁。 {I1,I2,I3}的2-项子集是{I1,I2},{I1,I3}和{I2,I3},它们都是L2的元素。因此保留{I1,I2,I3}在C3中。 {I1,I2,I5}的2-项子集是{I1,I2},{I1,I5}和{I2,I5}, 它们都是L2的元素。因此保留{I1,I2,I5}在C3中。 第38页,共79页,编辑于2022年,星期二 2 数据挖掘功能——关联规则 (6)候选3-项集的集合C3的产生如下: {I1,I3,I5}的2-项子集是{I1,I3},{I1,I5}和{I

文档评论(0)

xiaoyao2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档