数据挖掘算法-Apriori算法_20130224_读书笔记..docxVIP

数据挖掘算法-Apriori算法_20130224_读书笔记..docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘算法-Apriori算法_20130224_读书笔记.

算法概念引入 什么是关联规则按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 经典案例1:尿布和啤酒的故事关于这个算法有一个非常有名的故事:尿布和啤酒。故事是这样的:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加,并一直为众商家所津津乐道。 介绍案例2:床单和枕套的故事通过调查商场里顾客买的东西发现,30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—枕套,也就是说很大一部分顾客会同时购买床单和枕套,那么对于商场来说,可以把床单和枕套放在同一个购物区,那样就方便顾客进行购物了。Apriori数据挖掘算法Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishna Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。2.1 概念和定义资料库(Transaction Database):存储着二维结构的记录集。定义为:D 所有项集(Items): 所有项目的集合。定义为:I。 记录(Transaction ):在资料库里的一笔记录。定义为:T,T ∈ D 项集(Itemset): 同时出现的项的集合。定义为:k-itemset(k项集),k-itemset ? T。除非特别说明,否则下文出现的k均表示项数。 支持度(Support): 定义为 supp(X) = occur(X)/count(D) = P(X)。 解释一:比如选秀比赛,那个支持和这个有点类似,那么多人(资料库),其中有多少人是选择(支持)你的,那个就是支持度;解释二:在100个人去超市买东西的,其中买苹果的有9个人,那就是说苹果在这里的支持度是?9,9/100;解释三:P(X),意思是事件X出现的概率;解释四:关联规则当中是有绝对支持度(个数)和相对支持度(百分比)之分的。置信度(Confidence/Strength): 定义为 conf(X-Y) = supp(X ∪Y) /supp(X) = P(Y|X)。 历史数据中,已经买了某某(例如:A、B)的支持度和经过挖掘的某规则(例如:A=B)中A的支持度的比例,也就是说买了A和B的人和已经买了A的人的比例,这就是对A推荐B的置信度(A=B的置信度)候选集(Candidate itemset):通过向下合并得出的项集。定义为C[k]。 频繁集(Frequent itemset):支持度大于等于特定的最小支持度(Minimum Support/minsup)的项集。表示为L[k]。 注意,频繁集的子集一定是频繁集。 提升比率(提升度Lift):lift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X and Y)/(P(X)P(Y)) 经过关联规则分析后,针对某些人推销(根据某规则)比盲目推销(一般来说是整个数据)的比率,这个比率越高越好,我们称这个规则为强规则;剪枝步 只有当子集都是频繁集的候选集才是频繁集,这个筛选的过程就是剪枝步;2.2概念和定义的案例说明先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:假如有一条规则:牛肉—鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7(支持度),而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4(置信度)。这两个比例参数是很重要的衡量指标,它们在关联规则中称作支持度(support)和置信度(confi

文档评论(0)

stzs + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档