- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Apriori算法:产生频繁项集 寻找频繁项集:自底向上,即从包含少量项目的项集开始依次向包含多个项目的项集搜索 基本原则:如果最底层中只包含D项的1-项集不是频繁项集,则包含D项的其他所有项集都不可能是频繁项集,后续无需再对这些项集进行判断 Apriori算法:产生频繁项集 Apriori寻找频繁项集的过程:不断迭代 每次迭代包含两个步骤: 第一,产生候选集Ck,即可能成为频繁项集的项集 第二,基于候选集Ck,计算支持度并确定频繁项集Lk 设最小支持度阈值为0.5 Apriori算法:产生关联规则 产生关联规则的步骤: 依频繁项集产生所有简单关联规则,选择大于最小置信度阈值的关联规则组成有效规则集合 对每个频繁项集L,计算L所有非空子集L’的置信度 例:频繁项集L包含项目B、C、E。若L的子集L’包含B和C,则L-L’包含E。计算:C({B,C}?E) =S(B,C,E)/S(B,C)=0.50/0.50=100% 若 大于最小置信度阈值,生成关联规则 Apriori算法的应用 以BASKETS.txt为例(1000名顾客),事实表: 个人信息:会员卡号(cardid)、消费金额(value)、支付方式(pmethod)、性别(sex)、是否户主(homeown)、年龄(age)、收入(income); 一次购买商品的信息:果蔬(fruitveg)、鲜肉(freshmeat)、奶制品(dairy)、蔬菜罐头(cannedveg)、肉罐头(cannedmeat)、冷冻食品(frozenmeal)、啤酒(beer)、葡萄酒(wine)、软饮料(softdrink)、鱼(fish)、糖果(confectionery 目标:分析商品的连带购买 简单关联规则的GRI算法 GRI(Generalized Rule Induction)算法,Smyth和Goodman,1992 特点: 前项可是分类型变量,也可为数值型变量 数据只能按事实表方式存储 采用深度优先搜索(Depth First Search)策略实现算法 第一,对数值型前项如何分组? 第二,J-值的含义是什么,如何计算? 分组步骤 第一,将前项的N个数据(数值型)从小到大升序排列,分组组限值取最小值 第二,试分组:小于等于组限值的数据为组1,大于组限值的数据为组2 第三,计算J-值 第四步,取下一个值作为组限值,返回到第二步 重复上述步骤,直到组限值取完第N—1个数据,得到N—1个J-值。 正式分组,以J-值最大时的组限值作为最终分组组限,分成两组 J-值反映收入组1中是否购买汽车的条件概率分布与不考虑收入时是否购买汽车的先验概率分布的差异的调整结果 简单关联规则的GRI算法 以BASKETS.txt为例,目标:顾客消费偏好研究,分析不同性别、年龄以及家庭主妇有怎样的消费偏好 GRI算法的应用 目的:从所收集到的众多序列中,找到事务发展的前后关联性,进而推断其后续的发生可能 Sequence算法,Agrawal和Srikant,1995 研究对象:事务序列,简称序列 例:C(香肠,花生米)C(饮料)C(啤酒) 序列关联分析 序列由项集和顺序标志组成 项集用C表示 顺序标志用表示 序列可被拆分为若干个子序列 子序列可继续拆分成项集 项集可看成最小子序列 例:C(香肠,花生米)C(饮料)C(啤酒) 拆分为:C(香肠,花生米)C(饮料) C(饮料)C(啤酒)、C(香肠,花生米)C(啤酒) 序列关联分析 序列测度指标: 序列长度是序列所包含的项集个数 序列大小是序列所包含的项目个数 例:001号的购买序列,包含3个项集,序列长度为3;序列共包括4个具体项目,序列大小为4 序列关联分析 序列测度指标: 序列支持度:包含某序列的事务序列数占总事务序列数的比例 例:C(饮料)C(啤酒)的序列支持度为4/6=0.67 序列关联分析 序列关联研究的目标:生成序列关联规则 序列关联规则的一般形式通常为: X?Y(支持度,置信度) 例:C(香肠,花生米)C(饮料)?C(啤酒) 序列关联规则 序列关联规则的支持度:包含某序列规则的事务数占总事务的比例 例: C(香肠,花生米)C(饮料)?C(啤酒)的支持度1/6=0.17 C(饮料)?C(啤酒)的支持度4/6=0.67 序列关联规则 序列关联规则的置信度:同时包含前项和后项的事务数与包含前项的事务数的比,也是规则支持度与前项支持度的比 例: C(香肠)?C(饮料)的置信度为1/5=0.2 C(饮料)?C(香肠)的置信度为3/4=0.75 序列关联规则 Sequence算法包括两大部分 第一,产生频繁序列集 频繁序列是指,序列的支持度大于等于用户指定的最小支持度的序
原创力文档


文档评论(0)