数据挖掘算法-Apriori算法_20130224_读书笔记..docxVIP

下载本文档

2
0
约5.99千字
约 6页
2017-01-13 发布于重庆
举报
版权申诉

数据挖掘算法-Apriori算法_20130224_读书笔记..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘算法-Apriori算法_20130224_读书笔记.

算法概念引入什么是关联规则按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。经典案例1：尿布和啤酒的故事关于这个算法有一个非常有名的故事：尿布和啤酒。故事是这样的：美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布，而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加，并一直为众商家所津津乐道。介绍案例2：床单和枕套的故事通过调查商场里顾客买的东西发现，30%的顾客会同时购买床单和枕套，而购买床单的人中有80%购买了枕套，这里面就隐藏了一条关联：床单—枕套，也就是说很大一部分顾客会同时购买床单和枕套，那么对于商场来说，可以把床单和枕套放在同一个购物区，那样就方便顾客进行购物了。Apriori数据挖掘算法Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishna Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物蓝分析 (Market Basket analysis)，因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。2.1 概念和定义资料库（Transaction Database）：存储着二维结构的记录集。定义为：D 所有项集（Items）：所有项目的集合。定义为：I。记录（Transaction ）：在资料库里的一笔记录。定义为：T，T ∈ D 项集（Itemset）：同时出现的项的集合。定义为：k-itemset（k项集），k-itemset ? T。除非特别说明，否则下文出现的k均表示项数。支持度（Support）：定义为 supp(X) = occur(X)/count(D) = P(X)。解释一：比如选秀比赛，那个支持和这个有点类似，那么多人（资料库），其中有多少人是选择（支持）你的，那个就是支持度；解释二：在100个人去超市买东西的，其中买苹果的有9个人，那就是说苹果在这里的支持度是?9，9/100；解释三：P(X)，意思是事件X出现的概率；解释四：关联规则当中是有绝对支持度（个数）和相对支持度（百分比）之分的。置信度（Confidence/Strength）：定义为 conf(X-Y) = supp(X ∪Y) /supp(X) = P(Y|X)。历史数据中，已经买了某某（例如：A、B）的支持度和经过挖掘的某规则（例如：A=B）中A的支持度的比例，也就是说买了A和B的人和已经买了A的人的比例，这就是对A推荐B的置信度（A=B的置信度）候选集（Candidate itemset）：通过向下合并得出的项集。定义为C[k]。频繁集（Frequent itemset）：支持度大于等于特定的最小支持度（Minimum Support/minsup）的项集。表示为L[k]。注意，频繁集的子集一定是频繁集。提升比率（提升度Lift）：lift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X and Y)/(P(X)P(Y)) 经过关联规则分析后，针对某些人推销（根据某规则）比盲目推销（一般来说是整个数据）的比率，这个比率越高越好，我们称这个规则为强规则；剪枝步只有当子集都是频繁集的候选集才是频繁集，这个筛选的过程就是剪枝步；2.2概念和定义的案例说明先看一个简单的例子，假如有下面数据集，每一组数据ti表示不同的顾客一次在商场购买的商品的集合：假如有一条规则：牛肉—鸡肉，那么同时购买牛肉和鸡肉的顾客比例是3/7（支持度），而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4（置信度）。这两个比例参数是很重要的衡量指标，它们在关联规则中称作支持度（support）和置信度（confi