- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(8)算法使用 L3 ∞ L3 产生候选4-项集的集 合C4 。尽管连接产生结果 {{I1,I2,I3,I5}}, 这个项集被剪去,因为它的子集{I2,I3,I5} 不是频繁的。则 C4 = ψ ,因此算法终止, 找出了所有的频繁项集。 L3 比较候选支持度计数 与最小支持度计数 项集 {I1,I2,I3} {I1,I2,I5} 支持度计数 2 2 44 4.2 挖掘单维布尔关联规则 -由频繁项集产生关联规则 【例4 】基于例3的结果,假定数据包含频 繁项集l={I1,I2,I5}。可以由l 产生哪 些关联规则? l 的非空子集有{I1,I2}、{I1,I5}、 {I2,I5}、{I1}、{I2}和{I5}。则结果关联 规则如下,每个都列出支持度,从而计算 置信度。 68 4 2 项集 {I1,I2} 支持度计数 4 {I1,I3} {I1,I5} {I2,I3} {I2,I4} {I2,I5} 4 2 2 39 项集 支持度计数 {I1} {I2} {I3} {I4} {I5} 6 7 6 2 2 项集 {I1,I2,I3} {I1,I2,I5} 支持度计数 2 2 4.2 挖掘单维布尔关联规则 -由频繁项集产生关联规则 I1 ? I2 ? I5, I1 ? I5 ? I2, I2 ? I5 ? I1, I1 ? I2 ? I5, I2 ? I1 ? I5, I5 ? I1 ? I2, confidence = 2 4 = 50 % confidence = 2 2 = 100 % confidence = 2 2 = 100 % confidence = 2 6 = 33% confidence = 2 7 = 29% confidence = 2 2 = 100 % 69 4.2 挖掘单维布尔关联规则 -由频繁项集产生关联规则 如果最小置信度阈值为70%,那么 只有第2、3、6个规则可以作为最终的 输出,因为只有这些是产生的强规则。 I1 ? I5 ? I2, I2 ? I5 ? I1, I5 ? I1 ? I2, confidence = 2 2 = 100 % confidence = 2 2 = 100% confidence = 2 2 = 100% 70 例子(设min_sup = 50%) 48 4.1 关联规则挖掘 -基本概念 【例1 】任务相关数据由某商店计算机部 购买物品的事务数组成,一个置信度为 80% 的关联规则: buys ( X , “ computer ” ) = buys ( X , “ software ” ) 意味着买计算机的顾客80% 也买软件。 10 4.1 关联规则挖掘 -基本概念 【例2 】例1中一个支持度为30% 的关联规 则,意味着计算机部的所有顾客的30%, 同时购买了计算机和软件。 支持度和置信度是两个兴趣度度量,分 别反映发现规则的有用性和确定性。 支持度小:规则使用面窄 置信度小:规则无意义 12 4.1 关联规则挖掘 -基本概念 满足最小支持度阈值和最小置信度阈值的关联规则被认为是有趣的。阈值由用户或专家设定。 强规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。 为方便计,用0% 和100%之间的值表示支持度和置信度。 13 4.1 关联规则挖掘 -基本概念 项集的频率:即包含项集的事务数,也称为项集的支持计数(support_count)。如果项集的出现频率大于或等于min_sup与D中事务总数的乘积,就称该项集满足最小支持度min_sup 。 频繁项集:满足最小支持度的项集称为频繁项集。频繁k-项集的集合通常记作Lk。 14 4.1 关联规则挖掘 -基本概念 关联规则挖掘包含两个步骤: 1)找出所有频繁项集:根据定义,这些项集的频繁性至少和预定义的最小支 持计数一样。 2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。 15 4.1 关联规则挖掘 3.关联规则挖掘分类 根据不同的标准,关联规则可以分成若干类型: (1)根据规则所处理的值的类型,关联规则可以分为布尔的和量化的 如果规则考虑的关联是项的在与不在, 则它是布尔关联规则。例如,由购物篮 分析得到的就是布尔关联规则。 16 4.1 关联规则挖掘 -关联规则挖掘分类 如果规则描述的是量化的项或属性之间 的关联,则它是量化关联规则。在这种 规则中,项或属性的量化值划分为区间。 例如,下面的规则就是量化
文档评论(0)