- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章数据挖掘_课件
Part II - Association Rules ? Prentice Hall Chapter 6 关联规则 Association Rule 目标: 提供关联规则问题的概述并介绍几种基本的关联规则挖掘算法 关联规则问题概述 大项目集 关联规则算法 Apriori算法 抽样算法 划分算法 并行算法 啤酒和尿布的故事 沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用数据挖掘技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。 这个故事说明了什么? 在海量的数据中,总是隐藏着各种各样的信息。而随着时间的推移以及信息爆炸,我们已经很难不借助其他的外力去从海量的数据中发觉信息,即使能发觉,根据现在信息的发布速度,这样也是毫无实际意义的。如何从庞大的数据海洋中发掘有效信息,已经成为信息时代所急待解决的问题。于是数据仓库,数据挖掘、在线分析等等概念开始出现在我们视野里。这个时代是一个炒做概念的时代,新名词、新概念层出不穷;惹的我们纷纷双眼昏花起来。这个故事告诉大家,数据里蕴藏着许多肉眼所看不见的东西。根据现在的零售业发展规模来看,再想创造沃尔玛的神奇故事已经不可能了,谁都没有神的眼睛,没有经过梳理的数据对我们来说比垃圾还垃圾。因此,如何发掘垃圾里的有价值信息,就成了一个市场的卖点。因此,请关注数据挖掘。 例子: 购物篮数据 购买一种商品时也同时购买另一种商品的情形就构成了一条关联规则: 花生酱 ?面包 应用领域: 场地布局 广告 市场营销 库存控制 目的: 增加销售量并减少成本 关联规则相关概念 一组项目: I={I1,I2,…,Im} 事务数据库: D={t1,t2, …, tn}, tj? I 项目集: {Ii1,Ii2, …, Iik} ? I 项目集的支持度:包含该项目集的事务占库中所有事务的百分比。 大 (频繁)项目集 : 是出现次数大于阈值s的项目集. 关联规则示例 关联规则定义 给定一组项目I={I1,I2,…,Im}和一个事务数据库 D={t1,t2, …, tn} ,其中 ti={Ii1,Ii2, …, Iik} 并且Iij ? I, 关联规则 (AR): 形如X ? Y的蕴含式,其中X,Y ? I是两个项目集,并且 X ? Y =?; 关联规则X ? Y 的支持度s: 数据库中包含X ?Y 的事务占库中所有事务的百分比。 关联规则X ? Y 的置信度a : 包含X ? Y 的事务数与包含X 的事务数的比值。 示例 关联规则问题 给定一组项目I={I1,I2,…,Im}和一个事务数据库 D={t1,t2, …, tn} ,其中 ti={Ii1,Ii2, …, Iik} 并且Iij ? I,关联规则问题就是识别出所有大于最小支持度和置信度的关联规则 X ? Y. 注意: X ? Y的支持度和 X ? Y的支持度相等. 关联规则技术 发现大项目集. 从大项目集合产生关联规则. 产生关联规则的算法 ARs s=30%, a=50%利用该支持度,从表6.2得到大项目集的集合L={{啤酒},{面包},{牛奶},{花生酱},{面包,花生酱}}要想产生关联规则,需要有非空子集。只有最后一个大项目集可以产生关联规则。该大项目集产生的可能关联规则如下:(1) 面包? 花生酱 ,其置信度为0.75,满足条件,是一条有效的关联规则。(2)花生酱?面包,其置信度为1,满足条件,是一条有效的个关联规则。 Apriori算法 大项目集性质: 大项目集的任一子集也一定是大的。 因此大项目集只能从所有大的子集的组合(连接运算)产生 对照: 如果一个项目集不是大的,那么它的超集也不是大的。 Apriori 算法示例 (cont’d) Apriori 算法 C1 = Itemsets of size one in I; Determine all large itemsets of size 1, L1; i = 1; Repeat i = i + 1; Ci = Apriori-Gen(Li-1); Count Ci to determine Li; until no more large itemsets found; Apriori-Gen 从大小为i 的大项目集产生大小为i+1 的侯选项目集。 具体用法:将每一个项目集合与另外一个具有共同成员的项目集进行连接
您可能关注的文档
- 第5课 古代希腊罗马的政治制度.ppt
- 第5课 西方人文主义思想的起源(理).pptx
- 第5课 西方人文主义思想的起源【精品】.ppt
- 第5课_三大改造课件人教版.ppt
- 第5课_明清之际的思想批判1.ppt
- 第5课《孔乙己》ppt课件(语文版九上).ppt
- 第5课《孔乙己》课件 (共24张PPT).ppt
- 第5课中古欧洲社会[人教课标].ppt
- 第5课《古代希腊的民主政治》课件.ppt
- 第5课《赵普》.ppt
- 2025年中国锻铁围栏市场调查研究报告.docx
- 2025年中国椭圆型市场调查研究报告.docx
- 2025年中国无蔗糖原味豆浆市场调查研究报告.docx
- 2025-2031年中国泛在电力物联网行业发展运行现状及投资潜力预测报告.docx
- 2025年中国制袋机零件市场调查研究报告.docx
- 2025年中国智能除垢型电子水处理仪市场调查研究报告.docx
- 2025-2031年中国甘肃省乡村旅游行业市场深度研究及投资策略研究报告.docx
- 2025-2031年中国干海产品行业市场发展监测及投资战略规划报告.docx
- 2025年中国全铝图解易拉盖市场调查研究报告.docx
- 2025年中国人造毛皮服装市场调查研究报告.docx
最近下载
- 教师家访记录内容50篇.docx VIP
- 全国辅警考试题库+答案(2025版).docx VIP
- 项目成本管理(估算、预算、控制).ppt VIP
- 2024年广东省基层住院医师线上岗位培训《针灸技术》答案-中医学专业培训课程专业课.docx VIP
- DB44T2614.2-2025 农业面源污染监测及测算技术规范 第二部分:畜禽养殖业面源污染监测.pdf VIP
- 高考被动语态专项练习.pdf VIP
- 景观常用灌木.doc VIP
- 2025年储能电池热管理系统在光伏储能电站的集成与应用报告.docx VIP
- 非ST段抬高型急性冠脉综合征诊断和治疗指南(2024) .pdf VIP
- 华为存储双活规划设计指南.pdf VIP
文档评论(0)