关联分析--SPSS例析.docVIP

  • 40
  • 0
  • 约1.45千字
  • 约 8页
  • 2020-05-27 发布于湖北
  • 举报
关联分析(笔记 事物之间的关联关系包括:简单关联关系、序列关联关系。 关联关系 简单关联关系 序列关联关系 简单关联规则 :属于无指导学习方法,不直接用于分类预测,只揭示事物内部的结构。 Spss modeler 提供了 APriori 、 GRI 、 Carma 等经典算法。 APriori 和 Carma 属于同类算法。 序列关联:关联具有前后顺序,通常与时间有关。 SPSS Modeler 提供了 sequence 算法; 数据格式如下:按照事务表存储,同事需要时间变量。 简单关联规则要分析的对象是事务 事务的储存方式有 事务表 和 事实表 两种方式。 事实表 两种表均表明,顾客 1购买了 AD 两种物品,顾客 2购买了 BD 两种物品,顾客三购买了 AC 两种物品。 关联规则有效性的测度指标 1、 支持度 support :所有购买记录中, A 、 B 同时被购买的比例。 2、 置信度 confidence :在购买 A 的事务中,购买 B 的比例。 关联规则实用性的测度指标 1、 提升度 lift :(在购买 A 的事务中,购买 B 的比例 /(所有事务中,购买 B 的比例 2、 置信差 3、 置信率、正态卡方、信息差等等 简单关联关系实例 例 1 数据格式:事实表 算法 :Apriori 所有购买项目均选入前项 antecedent 和后项 consequent 。 输出结果的最低支持度是 10%; 本例设定的划分频繁项集的标准大于最小支持度 10%。 最小置信度是 80%; 前项最多项目数:5 本例中,三项以上没有超过 10%的支持度,所以不能形成三项以上的频繁项集,最大的频繁项集大小是 2。 结论解释: 实例:包含前项 beer 、 cannedveg 的样本有 167个,在 1000个样本中 前项支持度 为 16.7%。 规则支持度 :同时购买 beer 、 cannedveg 、 frozenmeal 三项的支持度为 14.6%。 规则置信度 :购买 beer 、 cannedveg 的客户中, 87.425%的人有购买 frozenmeal 。 规则 2下,购买 frozenmeal 的可能性比购买 frozenmeal 的支持度提高 2.895倍。 例 2 数据格式:事实表 算法 :Apriori 本例前项选择 性别和家乡, 旨在不同性别和地区客户的购买行为是否存在频繁项集。 由于 AGE 是数据类型变量,所以前项不能选入 AGE ,可在 GRI 算法中选入 AGE 。 Sex=M 序列关联规则实例 例1 数据格式:事务表 时间变量:time 算法:sequence 饮料=》啤酒:规则支持度 66.7%,规则置信度 100%。 饮料=》香肠:规则支持度 50%,规则置信度 75%。 啤酒=》香肠:规则支持度 50%,规则置信度 60%。 将最下置信度调整为 30%,结果为: 例2 本例是客访问网页的数据,包括浏览的内容和顺序等信息。模型旨在发现各类网页的浏览是否存在某种序 列关系。 Customerguide:客户 ID URKcategory:网页浏览内容 sequenceID:浏览顺序,即时间顺序。 Flight=》hotel,表示浏览航班网页的网民,随后 86.6%的将浏览宾馆住宿的网页,规则支持度为 10.3%,规 则置信度 86.6%。 实例和支持度都是前项的数据。

文档评论(0)

1亿VIP精品文档

相关文档