商务智能期末报告.docxVIP

下载本文档

19
0
约5.34千字
约 7页
2017-08-16 发布于重庆
举报
版权申诉

商务智能期末报告.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

商务智能期末报告

商务智能期末报告关联规则挖掘算法的研究姓名马静学院计算机信息管理专业电子商务目录引言31关联规则概述31.1关联规则的基本概念31.2关联规则的最小支持度和最小可信度31.3关联规则基本原理31.4关联规则的种类42关联规则的挖掘过程43关联规则挖掘算法43.1Apriori算法43.2基于划分的算法53.3FP-树频集算法53.4关联规则挖掘算法研究53.5关联规则挖掘算法改进54总结与展望55结束语6参考文献6关联规则挖掘算法的研究引言数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题，它引起了科学界和产业界的广泛关注。在数据挖掘技术发展繁荣的大背景下，关联规则技术得到了蓬勃发展，并正朝更为广泛而深入的方向继续发展。关联规则挖掘作为数据挖掘领域的一个重要研究分支，它的任务是发现所有满足支持度闭值和置信度阂值的强关联规则。近年来，关联规则挖掘研究已经成为数据挖掘中的一个热点，并被广泛应用于市场营销、事务分析等应用领域。关联规则挖掘算法是关联规则挖掘研究的主要内容，迄今为止已提出了许多高效的关联规则挖掘算法。数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统最前沿的研究方向之一。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段,因此对关联规则的研究具有重要的理论价值和现实意义。1关联规则概述1.1关联规则的基本概念关联规则挖掘(Association Rules Mining)是发现交易(Transaction)数据库中不同项(集)之间有趣的关联或相关关系，是当前数据库中定义的一种十分有用的知识模型。自1993年Agrawal引入关联规则概念和提出第一个关联规则算法以来，由于其巨大的商业价值以及研究的理论价值，诸多研究人员对关联规则挖掘的算法进行了广泛的研究。关联规则挖掘的难点在于其挖掘对象是海量的数据，由于Agrawal算法需要对数据库的多次扫描，因此在真正的海量数据库挖掘中没有实用价值；而FP-树增长算法，相对于Apriori算法来说，算法效率快了一个数量级，但算法需要消耗较大内存，对海量级数据库来说算法在实现上存在一定的困难。当前国内外研究关联规则的文献很多，但大多数集中在对上述两个算法的改进上，没有实质和有效性的算法出现。关联规则挖掘已被数据库界广泛研究，其研究的核心是挖掘规则挖掘算法。经过多年的研究，关联规则挖掘算法在原有算法的基础上不断优化、改进和完善，使关联规则挖掘的效率不断提高。1.2关联规则的最小支持度和最小可信度自1993年Agrawal提出以来，诸多研究人员对关联规则挖掘的算法进行了广泛的研究。支持度和可信度是描述关联规则的两个重要概念。前者用于衡量关联规则在整个数据集中的统计重要性。后者用于衡量关联规则的可信程度。关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度supmin和最小可信度confmin 关联规则。关联规则挖掘可以分成两个子问题：寻找满足最小支持度的频繁项目集和根据最小可信度用频繁项目集来产生关联规则。其中第一个问题是开销最大的，因此目前大多数关联规则挖掘算法都致力于提高寻找频繁项目集的效率。1.3关联规则基本原理设I={i1,i2,…,im}是m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即T I,T有一个唯一的标志符TID。若项集X I且X T,则事务集T包含项集X。一条关联规则就是形如X Y的蕴涵式,其中X I,Y I,X∩Y= 。关联规则X Y成立的条件:a.它具有支持度s,即事务数据库D中至少有s%的事务包含X∪Y。b.它具有置信度c,即在事务数据库D中包含X的事务至少有c%同时也包含Y。关联规则挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度supmin和最小可信度confmin的关联规则。关联规则挖掘问题可以分解为以下2个子问题。1)找出存在与事务数据库中的所有强项集X的支持度support(X)不小于用户给定的最小支持度supmin,则称X为强项集(large itemset)。2)利用强项集生成关联规则。对于每个强项集A,若B A,B≠ ,且support(A)/support(B)≥confmin,则有关联规则B (A-B)。1.4关联规则的种类(1)基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型布尔型关联规则处理的值都是离散的、种类化的，它所考虑的是项的在