- 40
- 0
- 约1.45千字
- 约 8页
- 2020-05-27 发布于湖北
- 举报
关联分析(笔记
事物之间的关联关系包括:简单关联关系、序列关联关系。
关联关系 简单关联关系
序列关联关系
简单关联规则 :属于无指导学习方法,不直接用于分类预测,只揭示事物内部的结构。 Spss modeler 提供了 APriori 、 GRI 、 Carma 等经典算法。 APriori 和 Carma 属于同类算法。
序列关联:关联具有前后顺序,通常与时间有关。
SPSS Modeler 提供了 sequence 算法;
数据格式如下:按照事务表存储,同事需要时间变量。
简单关联规则要分析的对象是事务
事务的储存方式有 事务表 和 事实表 两种方式。
事实表
两种表均表明,顾客 1购买了 AD 两种物品,顾客 2购买了 BD 两种物品,顾客三购买了 AC 两种物品。
关联规则有效性的测度指标
1、 支持度 support :所有购买记录中, A 、 B 同时被购买的比例。 2、 置信度 confidence :在购买 A 的事务中,购买 B 的比例。 关联规则实用性的测度指标 1、 提升度 lift :(在购买 A 的事务中,购买 B 的比例 /(所有事务中,购买 B 的比例
2、 置信差
3、 置信率、正态卡方、信息差等等 简单关联关系实例 例 1
数据格式:事实表 算法 :Apriori
所有购买项目均选入前项 antecedent 和后项 consequent 。
输出结果的最低支持度是 10%; 本例设定的划分频繁项集的标准大于最小支持度 10%。
最小置信度是 80%;
前项最多项目数:5
本例中,三项以上没有超过 10%的支持度,所以不能形成三项以上的频繁项集,最大的频繁项集大小是 2。
结论解释:
实例:包含前项 beer 、 cannedveg 的样本有 167个,在 1000个样本中 前项支持度 为 16.7%。
规则支持度 :同时购买 beer 、 cannedveg 、 frozenmeal 三项的支持度为 14.6%。
规则置信度 :购买 beer 、 cannedveg 的客户中, 87.425%的人有购买 frozenmeal 。
规则 2下,购买 frozenmeal 的可能性比购买 frozenmeal 的支持度提高 2.895倍。
例 2
数据格式:事实表 算法 :Apriori
本例前项选择 性别和家乡, 旨在不同性别和地区客户的购买行为是否存在频繁项集。 由于 AGE 是数据类型变量,所以前项不能选入 AGE ,可在 GRI 算法中选入 AGE 。
Sex=M 序列关联规则实例 例1 数据格式:事务表 时间变量:time 算法:sequence
饮料=》啤酒:规则支持度 66.7%,规则置信度 100%。 饮料=》香肠:规则支持度 50%,规则置信度 75%。 啤酒=》香肠:规则支持度 50%,规则置信度 60%。 将最下置信度调整为 30%,结果为:
例2 本例是客访问网页的数据,包括浏览的内容和顺序等信息。模型旨在发现各类网页的浏览是否存在某种序 列关系。 Customerguide:客户 ID URKcategory:网页浏览内容 sequenceID:浏览顺序,即时间顺序。
Flight=》hotel,表示浏览航班网页的网民,随后 86.6%的将浏览宾馆住宿的网页,规则支持度为 10.3%,规 则置信度 86.6%。 实例和支持度都是前项的数据。
原创力文档

文档评论(0)