- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则挖掘算法探究和商务应用
关联规则挖掘算法探究和商务应用摘要:随着数据库技术的迅速发展,数据的存储数量与日俱增, 从而使得数据挖掘技术的重要性日益加强,关联规则挖掘是数据挖掘中最活跃的研究方法之一。该文先介绍了关联规则挖掘的研究情况,进一步提出和实现了一种有效的基于矩阵的Apriori 改进算法,最后探讨和实现Apriori 算法在商务中的应用。
关键词:数据挖掘;关联规则;Apriori 算法;商务应用
中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2013)14-3217-03
1 数据挖掘体系结构与关联规则
1.1 数据挖掘体系结构
数据挖掘(Data Mining)从定义上可以将其界定为从大量的、不完全的、有噪声的、模糊的、随机的数据中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的过程[1]。通过对数据挖掘的定义的分析可以看出,数据挖掘是一个高级的处理过程,其最终要达到的目的就是能够实现从数据集中识别出以模式来表示的知识。由此可以看出,数据挖掘作为一门学科,涉及的学科知识十分广发,最主要的是涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化等多个领域。借助数据挖掘这一工具和方法,其最终的分析结果和成果可以用在信息管理、过程控制、科学研究、决策支持等许多方面。一般来说,一个完整的数据挖掘过程由以下七个步骤组成:数据清理、数据集成、数据选择、数据变换、数据挖掘、模型评估和知识表示。
1.2 关联规则
关联规则的挖掘(ARM)是数据挖掘的一项重要的任务。关联规则挖掘最根本的目的就是能够快速有效地发现大量数据中项集之间有趣的关联或相关联系。其目的就是从事务数据库、关系数据库中发现项目集或属性之间的相关性、关联性以及因果性。随着数据挖掘相关研究的不断深入,许多研究学者更多地将研究的目光集中在了挖掘关联规则方面。从数据挖掘的本质特征来分析可以看出,关联规则更多地反映一个事件和其他事件之间依赖或关联的知识。通过关联规则的定义可以发现,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
2 一种基于矩阵的Apriori改进算法
挖掘关联规则的对象是含有大量事务的事务数据库,所以如何设计一个高效的算法,以提高挖掘的计算效率,降低数据库的扫描次数,是研究关联规则挖掘的重要课题。虽然现在对于挖掘算法Apriori 相关的改进和发展不断涌现,但是仍然有着自身的一些缺陷,最具有代表性的就是对数据库进行多次扫描而造成的精确度的降低,以及显著地存在由候选集C K 产生频繁集LK 等不足。正是由于这些缺陷的存在,本节提出一种基于矩阵的改进算法来产生频繁集L K ,这种算法只对数据库扫描一次,并且无需候选集C K ,即可得到频繁集L K 。
2.1 与算法相关的几个概念
3 Apriori算法在商务中的应用
3.1 问题提出
假如一家大型超市的管理人员想要知道每天超市的销售情况,顾客的购买模式,通过顾客特征,采取相应的货价摆放以增加顾客满意度和销售额。如果仅仅靠传统人工技术,从巨大的购买信息中找出相应的答案就像大海里捞针,非常困难。
本章利用数据挖掘技术针对这一问题进行研究。研究对象是顾客在一次购物的过程中,购买的不同商品之间联系,进而借助数据挖掘来进一步深入地分析顾客的购买习惯。在对不同商品种类和数量进行充分分析的基础上,进一步地分析出哪些商品最受顾客欢迎,从而购买频率很高,进而借助这种关联的发现可以帮助零售商制定营销策略。问题归结为分析当前销售情况,找出商品统计信息之间的关系。
3.2 数据来源
对于一个实际的数据挖掘应用来说,数据是进行数据挖掘的基础和根本,同时数据挖掘技术的应用对数据量也有一定的要求,只有这样数据挖掘才能有实际意义。数据的获取确实是这次研究数据挖掘面临的很大的问题。通过仔细的搜索和分析,我最终选择了Belgium 的一家的超市的销售数据。整个数据源是在三个非连续的时期收集的,在每一个间隔期,没有可获的数据。数据收集期跨时近5个月,总共收集到的数据记录有88163 条。在整个数据收集期间里,该超市总共出售了16470 种商品,共有5133 位顾客在该超市购买了至少一种商品。
但是与我们期望的数据还是有许多不同之处,数据表结构与我们需求的也存在很大的差别,这里可以采用等同和类比的方法,从而实现了对表结构的修改和数据的替换,这样以来就有效地实现了对大量的数据替换和表结构重组,解决了数据来源问题。
3.2.1 数据处理
由于数据仓库中各个主题中的数据是按照前端应用需求存放的,因此在数据应用前必然存在一个数据处理和转换的过程,这一过程需要对数据进行变形,使之适应前端应
文档评论(0)