关联规则挖掘1.pptVIP

下载本文档

22
0
约8.45千字
约 73页
2017-07-10 发布于浙江
举报
版权申诉

关联规则挖掘1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关联规则挖掘1

GRI算法应用示例2 这里，仍以超市顾客个人信息和他们的一次购买商品数据BASKETS.txt为数据源，分析目标是，探寻不同购买物品之间的联系，为货架的摆放提供依据。案例分析输入变量（in）：所有购物篮内容输出变量 (out) ：所有购物篮内容 Note：因为这里只是使用举例，所以为了结果的简洁和计算的效率，采用了如下图所设的参数设定。分析结果可以看到，基本可以分为两类： cannedveg、frozenmeal、beer wene、confectionery 下面，再利用web节点，验证此规则的正确与否。 Web节点：显示两个或两个以上符号型字段之间关系的强弱程度。这种图像通过使用各种不同类型的线条指示联系的强度来显示关系。结论：在摆放货架时，应该把灌装蔬菜、冷冻肉品和啤酒放在相邻的位置，把酒和糖果放在一起。 GRI算法应用示例3 这里，仍以超市顾客个人信息和他们的一次购买商品数据BASKETS.txt为数据源，分析目标是，探寻购买不同商品（以酒和饮料为例）的顾客的特征，确定促销信息发放的对象。输入变量：客户的个人信息（sex、homeown、income、age）输出变量：wine、softdrink 购买饮料的顾客群的特征：收入29950的男性或收入10250但是年龄大于38 购买酒的顾客群的特征：拥有自己住房，且收入28850 结论：对于酒类产品的促销活动信息，更应该发放给拥有自己住房，且收入28850的顾客，而不是所有收入29950的男性或收入10250但是年龄大于38的顾客。这类顾客更容易对碳酸饮料的促销活动动心。通过上面的3个案例可以看到，GRI节点从购物篮数据中找到了潜在的关联规则，结果简单易懂，回答了超市的实际问题，为超市得销售提供了建设性的意见。 5.2.2 在Clementine中应用Apriori算法利用超市顾客个人信息和他们的一次购买商品数据为例，讲解Aprioir算法的具体操作。数据源为BASKETS.txt，为文本格式文件。数据包括两大部分的内容，第一部分是顾客的个人信息，第二部分是顾客的一次购买商品的信息。数据源 “Apriori”节点-------Field选项卡 “Apriori”节点-------Model选项卡 “Apriori”节点-------Expert选项卡浏览模型 Setting选项卡网状图节点---------Web 5.3 序列模式序列模式挖掘要发现的是事件在发生过程中的先后顺序上的规律一个顾客在租借影碟时，先租借“星球大战”，然后是“帝国反击战”，最后是“杰达武士归来”（三部影片是以故事发生的时间先后而情节连续的）。顾客在租借了前两部影片之后，他租借第三步影片的概率是比较高的。这就是一个顾客在租借影片时的序列模式。 5.3.1 序列与序列模式序列，就是一个或多个项集有序地排列后组成的列表。例如，顾客6产生了这样一个序列：[{crackers} {bread}]。在一个序列集中，如果某个序列s不包含于任何其它序列中，则称s是“极大序列” 在进行数据挖掘时，由用户指定一个最小支持度阈值。把那些支持度大于等于这个阈值的序列称为“频繁序列”。长度为k的频繁序列记作“频繁k-序列”。给定一个事务数据库D，那么序列模式挖掘就是要从数据中找出所有的频繁序列，并从中取出那些极大序列，每一个这样的序列都代表了一个序列模式。 AprioriAll算法基本思想　　在每一次扫描(pass) 数据库时,利用上一次扫描时产生的大序列生成候选序列,并在扫描的同时计算它们的支持度( support) ,满足支持度的候选序列作为下次扫描的大序列。第1 次扫描时,长度为1 的频繁序列模式作为初始的大1 —序列。算法思路　　1) 排序阶段利用客户标识customer 2id作为主关键字以及事务发生的时间transaction 2 time作为次关键字对数据库D排序,该步骤将原始的事务数据库转换成客户序列的数据库. 　　2) 发现频繁项集阶段利用关联规则挖掘算法找出所有的频繁项目集. 　　3) 转换阶段在已经转换的客户序列中,每一个事务被包含于该事物中的所大项目集来替换,如果一个序列不包含任何大项目集,则在已经转换的序列中不应该保留这项事务. 　　4) 序列阶段利用核心算法找出所有的序列模式. （1）排序阶段按照顾客ID排序交易发生的时间客户标识购买项 June 04 2 A，B June 04 5 H June 04 2 C June 04 2 D，F，G June 04