- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八讲modeler关联分析
GRI算法的分组 第一步,将前项的N个数据(数值型)从小到大升序排列,分组组限值取最小值。 第二步,试分组:小于等于组限值的数据为组1,大于组限值的数据为组2。 第三步,计算J-值。 第四步,取下一个值作为组限值,返回到第二步。 重复上述步骤,直到组限值取完第N-1个数据,得到N-1个J-值。此时,正式进行分组,即以J-值最大时的组限值作为最终分组组限,分成两组。 GRI算法中的J-值 P(x)是前项支持度;P(y)是后项支持度;P(y|x)是给定x下y的条件概率 J-值反映了:已知前项属性值的条件下,后项属性的条件分布与不考虑前项属性时分布的差异程度。该值越大,说明前项属性值对后项属性的分布有较强影响 GRI算法应用案例 超市购买数据和顾客背景数据(Basket1N) 分析客户背景的购物偏好 与Apriori分析结果相比,在相同的支持度和置信度下增加了关于数值型年龄对购买的影响规则 注意:GRI算法不能产生规则集,也不能直接用于预测 序列关联的基本概念 序列关联,即关联具有前后顺序,通常与时间有关 序列关联研究的目的是要从所收集到的众多序列中,找到事务发展的前后关联性,进而推断其后续的发生可能 Clementine中要求数据按表事务表格式组织,并多添加一列以表示事务发生的先后顺序或时间点 序列关联的基本概念 序列 序列关联研究的对象为事务序列,简称序列 序列是由项集和顺序标志组成,项集用C表示,顺序标志用表示 C(香肠,花生米)C(饮料)C(啤酒) C(花生米)C(饮料)C(啤酒)C(香肠) 序列可被拆分为若干个子序列。子序列还可继续拆分成项集,项集可看成最小子序列 C(香肠,花生米)C(饮料)C(啤酒) C(香肠,花生米)C(饮料) C(饮料)C(啤酒) C(香肠,花生米)C(啤酒) 序列关联的基本概念 序列测度指标 序列长度:序列所包含的项集个数 序列大小:序列所包含的项目个数。 001号顾客的购买序列,序列长度为3,序列大小为4 序列支持度:反映序列普遍性的测度指标 定义为:包含某序列的事务序列数占总事务序列数的比例 C(饮料)C(啤酒)的序列支持度为4/6=0.67 序列关联的基本概念 序列关联规则 X?Y(支持度,置信度) C(香肠,花生米)C(饮料)?C(啤酒) 序列关联规则的支持度:包含某序列规则的事务数占总事务的比例 C(香肠,花生米)C(饮料)?C(啤酒)的支持度1/6=0.17 序列关联规则的置信度:同时包含前项和后项的事务数与仅包含前项的事务数的比,也是规则支持度与前项支持度的比 C(香肠,花生米)C(饮料)?C(啤酒)的置信度为1 大于用户指定的最小支持度和置信度的序列关联规则才是有效规则 Sequence算法 Sequence算法,用来进行序列关联分析,是Agrawal和Srikant在1995提出的 算法主要步骤:第一,产生频繁序列集;第二,依据频繁序列集生成序列关联规则 频繁序列集: 频繁序列集:包含所有频繁序列的集合 频繁序列:序列的支持度大于等于用户指定的最小支持度 只有最小频繁子序列(频繁项集)才可能构成频繁子序列,应首先寻找最小频繁子序列(频繁项集) 只有频繁子序列才可能构成频繁序列,应继续寻找频繁子序列 当序列所包含的子序列为频繁序列时,序列才可能成为频繁序列 设最小支持度为0.2 从产生频繁序列集合的过程可见,频繁序列在时间点上不一定是连续的,中间允许有间隔 候选频繁序列集合 Sequence算法 依据频繁序列集生成序列关联规则 邻接,如果对序列A增加一个最小子序列后就能够得到另一个序列B,则称序列A和序列B是邻接的 邻接格能够有效反映频繁序列的内在关系,它使序列关联规则的生成更加准确和快捷 C(饮料)?C(啤酒)(S=66.7%,C=100%) C(饮料)?C(香肠)(S=50%,C=75%) C(啤酒)?C(香肠)(S=50%,C=60%) Sequence算法 限定在怎样的时间范围实施的行为或发生的事物,属于同一时间点上的或属于另一时间点上的 C(饮料)C(面包,香肠)? C(饮料,面包,香肠)? 序列关联的时间约束 持续时间,也称时间窗口,或交易有效时间 时间间隔,指序列中相邻子序列之间的时间间隔 [a,b],其中a?b,表示相邻行为或事物发生的时间间隔不小于a,且不大于b。小于a或大于b的一定不属于相邻项集(最小子序列) Sequence算法 序列关联分析的应用示例 以客户浏览网页的历史记录数据分析浏览规律 得到的是一种具有一定可信度的网民共性的浏览模式 这种行为模式的分析还可以针对网民的年龄、受教育程度、地理位置等 Clementine的关联分析 关联分析概述 关联分析的目的是要寻找到事物之间的联系规律,发现它们之间的关联关系. 关联分析采
您可能关注的文档
最近下载
- 社会体育学复习资料与题库.pdf VIP
- 高职体育课程教学大纲.docx VIP
- 中国抗菌药物临床合理应用指南专家讲座.pptx VIP
- 最新ISO9001、ISO14001、ISO45001三体系设计部和业务部内审检查记录(带记录).pdf VIP
- 人音版四年级上册音乐全册教学设计教案.pdf
- 浙教版小学一年级上册《劳动》全册教学课件.pptx
- 管理信息系统开发项目式教程 第3版 教学课件 作者 陈承欢单元1 管理信息系统的开发综述.ppt VIP
- 2025年秋季八年级历史上册新教材解读课件(统编版2024).pptx VIP
- 商业运营管理培训.pptx VIP
- 医疗器械生产企业质量控制与成品放行指南2025年培训PPT.pdf
文档评论(0)