加权条件下负关联规则增量更新及剪枝算法-incremental updating and pruning algorithm of negative association rules under weighted conditions.docxVIP

下载本文档

2
0
约6.25万字
约 71页
2018-05-24 发布于上海
举报
版权申诉

加权条件下负关联规则增量更新及剪枝算法-incremental updating and pruning algorithm of negative association rules under weighted conditions.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

加权条件下负关联规则增量更新及剪枝算法-incremental updating and pruning algorithm of negative association rules under weighted conditions

第1章绪论1.1引言随着科学技术的发展和信息的急剧增长，原来单纯依靠统计学手段和数据库管理系统的查询检索机制等方法已远远不能满足现实的需要，数据挖掘技术因为可以智能化的将数据转化为有用信息而迅速发展起来。数据挖掘技术有以下几个特点：发现的知识是隐含的，预先未知的；这些知识都是从大规模的数据库中发现的；发现的这些知识都是用户感兴趣的；发现的规律是符合统计规律的；发现的知识和规则对决策是有价值的。数据挖掘的结果可以帮助企业做出归纳性的推理，可以使企业决策层在很多因素的影响下做出正确的抉择。关联规则是数据挖掘的一个热点方向[1]。其实在现有的各种数据库中都存在着一类非常重要的数据关联，这种数据关联是可以被发现的，我们称之为知识。所谓关联就是变量之间存在着某种关系，分析数据之间的关联性可以帮助我们发现各变量间隐含的各种关系。本人在总结分析已有研究成果的基础上，对项集和规则进行了扩展，深入研究了加权条件下负关联规则的增量更新和剪枝技术，提出了加权条件下负关联规则的增量更新算法和加权条件下负关联规则的剪枝算法。1.2关联规则增量更新1.2.1背景从原理上来讲，数据挖掘系统可以应用到任何信息存储方式下的知识发现中，但是数据源的存储类型不同，挖掘的挑战性和技术难度也会不同。数据挖掘涉及到的数据存储类型包括事务数据库、关系型数据库、数据仓库、在关系模型基础上发展的新型数据库（面向对象数据库、对象-关系型数据库、演绎型数据库等）、面向应用的新型数据源（空间数据库、时态数据库、工程数据库、多媒体数据库）和Web数据源等。本课题的研究中所有的数据挖掘都是在事务数据库中进行的。所谓事务是一个明确定义的商业行为。零售商通过实时记录商业行为可以积累大量的事务信息。顾客在商店或网上进行购物，就是典型的顾客事务。事务数据库研究的一个最普遍的例子就是寻找项集。对于数据挖掘中关联规则的研究，一般我们都是对一个静止的数据库进行的。但在现实生活中，任何数据库都不是静止的，因为只要有人类活动和数据库进行交流，数据库肯定是一个动态的变化过程。最常见的情况就是给数据库中增加新记录，比如公司每天的销售记录都得加入到公司的销售系统中。还有一种情况用的也很普遍。随着数据记录的增加，数据库的规模越来越大，也会带来很多问题。这时候很有必要删除一些无用的记录，这种情况就是我们说的数据库的负增量更新问题。第三种情况就是调整对规则生成有决定因素的两个参数（最小支持度和最小置信度）的值。目的都是高效准确的挖掘出对当前甚至长远来说有重要意义的规则或关系。1.2.2研究现状及存在的问题目前对关联规则增量更新的研究比较少，提出了一些解决关联规则增量更新问题的算法。FUP算法是D.W.Cheung等人首先提出的针对增量更新问题的算法，该算法研究的是当最小支持度和最小置信度一定的条件下，给原始数据库DB中增加一些新纪录db组合成新数据库DB∪db（我们记为DB+），DB+中关联规则的生成问题[2]。EFUP算法是一种改进的关联规则增量更新算法，该算法主要通过减少数据库的扫描次数来达到剪枝的目的[3]。PFUP算法也是一种关联规则增量更新的改进算法，该算法通过借鉴强频繁项集的概念达到减少数据库扫描次数的目的[4]。还有UA算法[5]，My_IUA算法[6]，NEWIUA算法[7]，NIUA算法[8]等基本上都是建立在IUA算法[9]基础上，对其进行改进。从目前已有的算法我们可以看出关联规则增量更新研究取得了一定的成就，但也存在一些问题和不足，表现在：（1）已有的关联规则增量更新算法基本上都是针对正关联规则的；（2）需要多次扫描原始数据库；（3）产生候选项目集的数目庞大；（4）已有算法基本都是是建立在Apriori算法基础上，好多的改进算法也基本都是对FUP算法的改进；（5）改进算法的策略基本都是想办法减少对数据库的扫描次数；（6）对负关联规则的增量更新及加权负关联规则的增量更新研究的更少；（7）没有考虑数据库多次被改动的情况；（8）更新后的数据库中挖掘出的规则维护问题[10,11]涉及的很少。1.3关联规则剪枝1.3.1背景现有的数据挖掘系统可以产生数以万计的模式或规则。但是由于数据挖掘系统通常不知道哪些模式或规则是用户感兴趣的，并且各数据属性间可能存在一些关联组合或机缘巧合，这些都会使得系统产生相当多的毫无价值的模式或规则，而且降低了系统进行数据挖掘的效率，得到了很多无用信息。因此，需要采取一些措施使挖掘出的模式尽可能的有用。关联规则剪枝就是基于这样的原因被提出来的。一个有效的规则或模式必须满足：（1）是潜在有用的；（2）是易于被人理解的；（3）是新颖的。在关联规则挖掘中，用户最关心的问题就是挖掘出的信息的有用性。如果得到了A→C，AB→C，A→BC等这样的模式，其实只用A→BC对用户来说是有用的，A