5 关联规则及相关算法
关联规则及相关算法;主要内容;关联规则概述;啤酒与尿布的故事;啤酒与尿布的故事;啤酒与尿布的故事;;基本概念;k-项集 ;关联规则的表示;频繁项集 ;关联规则挖掘过程主要包含两个阶段
第一阶段先从数据集中找出所有的频繁项集,它们的支持度均大于等于最小支持度阈值min_sup
第二阶段由这些频繁项集产生关联规则,计算它们的置信度,然后保留那些置信度大于等于最小置信度阈值min_conf的关联规则。;关联规则挖掘算法;Apriori算法是挖掘布尔关联规则频繁项集的算法
Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。
先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。;以表5-1为例 min_sup=0.22 ;2. 由频繁项集产生关联规则
由上一步得到的频繁项集集合 L2 和 L3 中的每一个频繁项集 l 都可以产生关联规则。
以下用 L3 中频繁项集 l = {I1, I2, I5} 进行说明。 L2 和 L3 中的其它频繁项集的关联规则同理可得。
l={ I1, I2, I5 }的所有的非空子集为:
{I1, I2},{I1, I5},{I2, I5},{I1
原创力文档

文档评论(0)