挖掘关联规则.PPTVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

*对于数值型的字段,需要进行一定的处理之后才可以进行。处理数值型字段的方法基本上有以下几种:(1)数值字段被分成一些预定义的层次结构。(2)数值字段根据数据的分布分成了一些布尔字段。(3)数值字段被分成一些能体现它含义的区间。(4)直接用数值字段中的原始数据进行分析。10.9.1多维关联规则挖掘原理

*10.2.3复杂关联规则算法多层次关联规则挖掘一般有两种途径:一种是把单层次关联规则挖掘算法直接应用于多层次。另一种是在不同的层次应用不同的支持度阈值和置信度阈值。*10.3分层搜索算法-Apriori算法10.3.1频繁项集的产生Apriori算法使用层次顺序搜索的循环方法(又称作逐层搜索的迭代方法)产生频繁项集,即用频繁k-项集探索产生(k+1)-项集。首先,找出长度为1的频繁项集,记为,用于产生频繁2-项集的集合,而用于产生频繁3-项集的,如此循环下去,直到不能找到新的频繁k-项集。找每个需要扫描数据库一次。*举例:已知事务数据库D如表10.1所示,最小支持度计数为2,即minsupport=2/9,利用Apriori算法挖掘所有满足minsup的频繁集。*(1)第一次扫描,扫描数据库获得每个候选项的计数,从而获得频繁1-项集。如表10-2所示。(2)根据L1生成2-候选集C2,然后扫描数据库D,计算各项集的支持度,如表10.3所示。从而得到频繁2-项集,如表10.4所示。**(3)L2进行自连接得到C3={{I1,I4,I5},{I1,I2,I4},{I1,I3,I4},{I1,I3,I5},{I2,I3,I4},{I3,I4,I5}}因为{I1,I2,I4}的子集{I1,I2,}和{I1,I3,I4}、{I1,I3,I5}的子集{I1,I3,}及{I2,I3,I4}的子集{I2,I3}不在L2中因此,从C3中删除{I1,I2,I4}、{I1,I3,I4}、{I1,I3,I5}、{I2,I3,I4}得:C3={{I1,I4,I5},{I3,I4,I5}}。然后再扫描数据库D,计算各项集的支持度计数,如表10.5所示,从而得到频繁3-项集L3,如表10.6所示。*(4)L3进行自连接得到C4={{I1,I3,I4,I5}},由于{I1,I3,I4,I5}的子集{I1,I3,I4,}不在L3中,因此删除{I1,I3,I4,I5}后C4=?,进而L4=?,算法终止。*10.3.2产生关联规则

利用如下公式来计算所获关联规则的置信度。其中,support_count(A?B)是包含项集A?B的交易记录数目,support_count(A)是包含项集A的交易记录数目。*利用频繁项集生成规则的算法描述如下:forall频繁k项集,k?2dobeginH1={中规则的后件,该规则的后件中只有一个项目};Callap_genrules(,H1);end;Procedureap_genrules(:频繁项集,Hm:m个项目的后件的集合)*if(km+1)thenbeginHm+1=apriori_gen(Hm)forallhm+1?Hm+1dobeginconf=support()/support(-hm+1);if(conf?minconf)thenoutput规则-hm+1→hm+1withconfidence=confandsupport=support();*例10-2以表10.1所示数据为例,来说明关联规则的生成过程。频繁项集l={I1,I4,I5},以下将给出根据l所产生的关联规则。L的非空子集为:{I1}、{I4}、{I5}、{I1,I4}、{I4,I5}和{I1,I5}。以下就是据此所获得的关联规则及其置信度。I1∧I4→I5confiden

文档评论(0)

实验室仪器管理 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档