- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则在汽车销售中应用
关联规则在汽车销售中应用
摘 要:该文主要介绍了关联规则挖掘的FP-tree算法。并基于对FP-tree算法的研究,在Microsoft 2010中用C#语言实现FP-tree算法,并将应用程序应用到某汽车销售企业的汽车销售数据进行关联规则挖掘。根据程序所得到的结果,由lift值判断,证明了所得规则的有效性。
关键词:数据挖掘 关联规则 FP-tree算法 汽车销售 lift
中图分类号:TP311.13 文献标识码:A 文章编号:1674-098X(2013)01(a)-000-03
数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的数据中,提取隐含在其中的、人们事先不知道的但又是潜在的可理解、可接受、可应用的有用信息和知识的过程,并最终利用其来进行重要的商业决策[1-2]。该文重点研究关联规则中的FP-Tree算法。根据对这种算法的研究,并运用其对某公司的汽车销售数据进行挖掘,运用关联规则分析销售数据,找出影响汽车销量的因素,为汽车销售提供决策支持。
1 关联规则算法
1.1 关联规则概述
关联规则是美国IBM Almaden Research Center的RakeshAgrawal等人于1993年首先提出来的知识发现(KDD:Knowledge Discovery in Databases)研究的一个重要课题[3]。由于关联规则挖掘形式简洁、思路清楚、易于理解,并可以有效的捕捉数据间的重要关系,因此从大型数据库中挖掘关联规则的问题己经成为近年来数据挖掘研究领域的一个热点。
1.2 关联规则算法
在目前的许多算法中,以1994年RakeshAgrawal等人提出了的Apriori算法最有影响力[4],其他大多数算法也是以Apriori算法为核心的。Apriori算法是使用一种称作逐层搜索的迭代方法。首先,产生1-频繁项集,记作L1。然后用L1找出2-频繁项集L2,直到不能找到更多的频繁项集为止。在k次循环中,过程先产生k-候选项集的集合Ck。然后通过扫描数据库生成支持度,并测试产生k-频繁项集Lk。找每一个Lk就需要扫描一次事务数据库。Apriori算法虽然简单明了,但是却存在难以克服的性能瓶颈。Apriori算法在执行的过程中需要很大的I/O负载,并且可能产生庞大的候选集。
针对Apriori算法的性能瓶颈问题-需要产生大量候选项集和需要重复地扫描数据库,2000年Jiawei Han等人提出了基于FP-tree生成频繁项集的FP-growth算法。该算法只进行2次数据库扫描且它不使用侯选集,直接压缩数据库成一个频繁模式树,最后通过这棵树生成关联规则。研究表明它比Apriori算法大约快一个数量级[5]。
FP-growth算法是一种不产生候选模式而采用频繁模式增长的方法挖掘频繁模式的算法。算法只需要扫描2次数据库:第一次扫描数据库,得到1维频繁项集;第二次扫描数据库,利用1维频繁项集过滤数据库中的非频繁项,同时生成FP-tree。由于FP-TREE蕴涵了所有的频繁项集,其后的频繁项集的挖掘只需要在FP-TREE上进行。FP-TREE挖掘由两个阶段组成:第一阶段建立FP-tree,即将数据库中的事务构造成一棵FP-tree;第二阶段为挖掘FP-tree,即针对FP-tree挖掘频繁模式和关联规则。由于FP-growth算法的优点,该文即基于FP-growth算法进行实现。
下面给出FP-growth算法:
输入:FP-tree,α;
输出:所有频繁模式集;
(1)begin
(2)FP-growth(tree,α)
(3)if(tree has single Path P)then
(4)forallβP //对路径P中的结点的任一组合记为β
(5)生成αβ频繁项集,使其支持度等于β中所有节点的最小支持度
(6)else
(7)forall //对Tree头上的每个节点记为
(8)begin
(9)β=α
(10)β.sup port= ?sup port;
(11)end
(12)构造β的条件模式基和β的条件FP树Treeβ
(13)if Treeβthen
(14)FP-growth(Treeβ,β)
(15)end
由FP-growth算法得到频繁项集之后,就可以提取其关联规则了。从已知频繁项集产生关联规则为两步:
(1)对于每个频繁项集l,产生l的所有非空子集;
(2)对于每个l的非空子集s,若,则产生关联规则“”,其中是最小可信度阈值。
1.3 关联规则的有效性
在关联规则挖掘
文档评论(0)