- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则挖掘1
GRI算法应用示例2 这里,仍以超市顾客个人信息和他们的一次购买商品数据BASKETS.txt为数据源,分析目标是,探寻不同购买物品之间的联系,为货架的摆放提供依据。 案例分析 输入变量(in):所有购物篮内容 输出变量 (out) :所有购物篮内容 Note:因为这里只是使用举例,所以为了结果的简洁和计算的效率,采用了如下图所设的参数设定。 分析结果 可以看到,基本可以分为两类: cannedveg、frozenmeal、beer wene、confectionery 下面,再利用web节点,验证此规则的正确与否。 Web节点:显示两个或两个以上符号型字段之间关系的强弱程度。这种图像通过使用各种不同类型的线条指示联系的强度来显示关系。 结论: 在摆放货架时,应该把灌装蔬菜、冷冻肉品和啤酒放在相邻的位置,把酒和糖果放在一起。 GRI算法应用示例3 这里,仍以超市顾客个人信息和他们的一次购买商品数据BASKETS.txt为数据源,分析目标是,探寻购买不同商品(以酒和饮料为例)的顾客的特征,确定促销信息发放的对象。 输入变量:客户的个人信息(sex、homeown、income、age) 输出变量:wine、softdrink 购买饮料的顾客群的特征: 收入29950的男性 或收入10250但是年龄大于38 购买酒的顾客群的特征: 拥有自己住房,且收入28850 结论: 对于酒类产品的促销活动信息,更应该发放给拥有自己住房,且收入28850的顾客,而不是所有收入29950的男性或收入10250但是年龄大于38的顾客。这类顾客更容易对碳酸饮料的促销活动动心。 通过上面的3个案例可以看到,GRI节点从购物篮数据中找到了潜在的关联规则,结果简单易懂,回答了超市的实际问题,为超市得销售提供了建设性的意见。 5.2.2 在Clementine中应用Apriori算法 利用超市顾客个人信息和他们的一次购买商品数据为例,讲解Aprioir算法的具体操作。 数据源为BASKETS.txt,为文本格式文件。数据包括两大部分的内容,第一部分是顾客的个人信息,第二部分是顾客的一次购买商品的信息。 数据源 “Apriori”节点-------Field选项卡 “Apriori”节点-------Model选项卡 “Apriori”节点-------Expert选项卡 浏览模型 Setting选项卡 网状图节点---------Web 5.3 序列模式 序列模式挖掘要发现的是事件在发生过程中的先后顺序上的规律 一个顾客在租借影碟时,先租借“星球大战”,然后是“帝国反击战”,最后是“杰达武士归来”(三部影片是以故事发生的时间先后而情节连续的)。 顾客在租借了前两部影片之后,他租借第三步影片的概率是比较高的。这就是一个顾客在租借影片时的序列模式。 5.3.1 序列与序列模式 序列,就是一个或多个项集有序地排列后组成的列表。例如,顾客6产生了这样一个序列:[{crackers} {bread}]。 在一个序列集中,如果某个序列s不包含于任何其它序列中,则称s是“极大序列” 在进行数据挖掘时,由用户指定一个最小支持度阈值。把那些支持度大于等于这个阈值的序列称为“频繁序列”。长度为k的频繁序列记作“频繁k-序列”。 给定一个事务数据库D,那么序列模式挖掘就是要从数据中找出所有的频繁序列,并从中取出那些极大序列,每一个这样的序列都代表了一个序列模式。 AprioriAll算法 基本思想 在每一次扫描(pass) 数据库时,利用上一次扫描时产生的大序列生成候选序列,并在扫描的同时计算它们的支持度( support) ,满足支持度的候选序列作为下次扫描的大序列。第1 次扫描时,长度为1 的频繁序列模式作为初始的大1 —序列。 算法思路 1) 排序阶段 利用客户标识customer 2id作为主关键字以及事务发生的时间transaction 2 time作为次关键字对数据库D排序,该步骤将原始的事务数据库转换成客户序列的数据库. 2) 发现频繁项集阶段 利用关联规则挖掘算法找出所有的频繁项目集. 3) 转换阶段 在已经转换的客户序列中,每一个事务被包含于该事物中的所大项目集来替换,如果一个序列不包含任何大项目集,则在已经转换的序列中不应该保留这项事务. 4) 序列阶段 利用核心算法找出所有的序列模式. (1) 排序阶段 按照顾客ID排序 交易发生的时间 客户标识 购买项 June 04 2 A,B June 04 5 H June 04 2 C June 04 2 D,F,G June 04
原创力文档


文档评论(0)