- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于提高频繁项集挖掘效率算法在市场分析中探讨
基于提高频繁项集挖掘效率算法在市场分析中探讨
摘要:频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。如频繁地同时出现在交易数据集中的商品的集合是频繁项集,利用高效率的频繁项集挖掘算法来发现频繁项集,通过分析这些频繁项集来预测商品的销售情况。
关键词:关联规则;Apriori算法;频繁项集;商品
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)04-0661-03
Based on the Improvement of Frequent Itemsets Mining Efficiency Algorithm in Market Analysis of Discuss
CHEN Wei
(Huainan Union University, Huainan 232038, China)
Abstract: Frequent pattern is frequently seen in the data concentration mode (such as itemsets, sequences or structures).As frequently appear in both the transaction data concentrated merchandise collection is frequent itemset, Using of efficient algorithm for mining frequent itemsets to find frequent itemsets, through the analysis of the frequent itemsets to predict the commodity the sales situation.
Key words: association rule; Apriori algorithm; frequent itemsets; commodity
随着大量数据不停地收集和存储,从数据库中挖掘频繁模式引起各行各业人士的兴趣。许多商务决策的制定,如交叉销售、顾客购买习惯分析等,都可以从大量事务记录中寻找一些有趣的相关联系。如今的超级市场作为一种新的销售形式,因为其商品价格低、品种多和商品直接面向顾客等优势得到了广大顾客的青睐。但是,随着超市规模的不断增大,商品种类和交易量也日益庞大起来,自然所积累的商业数据也越来越多。在这种情况下,面临如何以最少的资金组织最快的商品流动、如何根据顾客的需求对商品进行合理的布局和搭配、如何根据目前的销售信息去预测未来的销售情况等等一系列问题都是商家特别关心的。
1 频繁项集挖掘方法概述
购物篮分析是频繁项集挖掘的一个典型例子,它是根据购买者购买的商品来分析该顾客的购物习惯,比如典型的“啤酒和尿布”例子,超市经过对购物信息的挖掘,改变货物在货架上的摆放位置,从而调高了销售额。
除了购物篮分析以外,还有许多种频繁模式、关联规则和相关联系。频繁模式挖??有多种方法:
1)根据所处理的值类型分为:布尔关联规则和量化关联规则。
2)根据涉及的数据维分为:单维关联规则和多维关联规则。
3)根据所涉及的抽象层分为:单层关联规则和多层关联规则。
目前已经开发了许多有效的、可伸缩的频繁项集挖掘算法,由它们可以导出关联规则。这些算法分成三类:1)类Apriori算法,2)基于频繁模式增长算法,如FP增长,3)使用垂直数据格式的算法。
关联规则挖掘中最简单形式的挖掘是单维、单层和布尔关联规则,其中用一种称为逐层搜索的迭代方法来找出所有的频繁项集的Apriori算法是最著名、最有影响的关联规则挖掘算法。它的建立也是基于频繁项集性质的基础。
2 提高频繁项集挖掘效率算法
在寻找频繁项集的Apriori算法中需要频繁进行这样两个操作:判断两个k-项集中是否满足前k-l项相同且最后一项不同,即连接步;判断一个项集是否为另一个项集的子集,即剪枝步。假设事务数据库中各记录的项目均已排序,可以利用这一特点,从减少算法中这两个操作的执行次数的方法来达到优化算法的目的。
1)减少连接步骤的执行次数具体实现方法:
由于我们已经设定各事务项目按字典排序,所以其中的任一个k-项集L,有L[l]
②建立二个空数据表,分别用来存放1、2频繁项集和它们的支持度计数。其中一个表中有2个字段,另一个表中有3个字段。
4)从已经产生的频繁项集中找出它们的子集,然后根据关联规则的挖掘算法原理,设定最小置信度,由实验得出关联规则[3-6]。
从得出的规则中可以看出买酸奶的
文档评论(0)