一种基于图的apriori改进算法分析及其系统实现-analysis and system implementation of an improved apriori algorithm based on graph.docxVIP

下载本文档

10
0
约2.79万字
约 46页
2018-06-03 发布于上海
举报
版权申诉

一种基于图的apriori改进算法分析及其系统实现-analysis and system implementation of an improved apriori algorithm based on graph.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于图的apriori改进算法分析及其系统实现-analysis and system implementation of an improved apriori algorithm based on graph

1绪论1.1课题背景本课题的目的有两个：一.对Apriori关联规则生成算法进行研究，并在其基础上提出一种改进的关联规则生成算法，并使新算法在时间复杂度和空间复杂度上相较原算法有所优化。二.以改进的关联规则生成算法为核心，对集中式数据库进行挖掘，将挖掘的时间与原算法进行比较以得出实验结果。本课题目标的体系结构如图1.1所示：图1.1体系结构图Apriori算法改进的目的是希望能够对算法在时间和空间上进行优化，以使得算法能够更好的适应大规模数据的挖掘，使返回结果的时间更快，并且挖掘过程中消耗的空间更少。1.2国内外研究现状1.2.1关联规则生成算法概述通常一个挖掘关联规则的过程可以被划分为两个阶段[1~3]：第一阶段，使用者根据最小支持度，从事务数据库中找出大于等于最小支持度的所有项目集[4]。第二阶段，从第一阶段得出的项目集中产生出频繁关联规则。从20世纪90年代，有很多学者试图去解决挖掘关联规则的问题[5~7]。最早在1993年Agrawal提出了AIS算法，但是AIS算法会产生过多的候选项目集，这使得他成为所有关联规则算法中效率最低的一种算法。所以在1994年Agrawal又提出了一种Apriori算法。在随后的这些年里有很多基于Apriori算法的改进算法被相继提出，例如：Savasere提出了Partition算法，Toivonen做出了Sampling算法，Park在1995年提出了利用DHP哈希技术的算法。通过以上可以看出，关联规则的研究问题不光是怎么样推导出相关项集的非空集合，还有如何提高推导过程的效率[8~9]。1.2.2关联规则挖掘的相关概念支持数[1]：当给出一项规则时，提取该规则中所含有的所有项集，并将其作为一个集合，随后扫描事务数据库，每扫描一条事务时，若该事务包含该项集集合，则将该项集集合所关联的值S做S=S+1操作，当对数据库扫描完成之后所得到的S值即为该项集在该事务数据库中的支持数。支持度：某规则的支持数除以事务数据库中总事务的条数即为该规则的支持度。设某商场中货架上有篮球，足球，运动衫，羽毛球拍，羽毛球，运动鞋等等，在统计该商场的每月销售记录时，利用数据挖掘得出如下规则：{运动衫，羽毛球拍}=〉{羽毛球}[支持度=4%，置信度=56%]，4%的支持度意味着在所有购买事务中同时购买运动衫，羽毛球拍以及羽毛球的记录占据了所有购买记录事务的4%，它是一种对该规则有用性的衡量。置信度：依旧以上述商场每月销售记录为例，所挖掘出的规则{运动衫，羽毛球拍}=〉{羽毛球}[支持度=4%，置信度=56%]，其中置信度=56%所代表的含义为在所有购买了运动衫和羽毛球拍的顾客中，有56%的人又同时购买了羽毛球。它反映的是所发现规则的确定性。总体来看关联规则的支持度和置信度是规则兴趣度的两种度量。最小支持度阈值和最小置信度阈值：这两个阈值是由用户或者相应领域专家来确定的，如果所挖掘出的规则同时满足这两个阈值，则说明所挖掘出的规则是有意义的，即可以作为用户对数据分析的依据。其中最小支持度阈值与事务数据库中事务的总条数的乘积用来作为在算法中从候选频繁项集筛选频繁项集的标准，即算法中的支持数。而最小置信度阈值则作为从已得出的频繁项集中推导出规则的标准。项集：事务中所包含的项的集合称为项集。如果一个项集中包含的项目个数为K，则称之为K项集。随后依次扫描事务数据库中事务，得出事务数据库中包含该项的事务条数，即为该项的频率（也可以称其为支持度计数或计数）。如式1-1所示:support（α=β）=P（α∪β）(1-1)如果该项集的支持度计数或者计数除以事务数总数，所得值大于等于最小支持度阈值。则该项集被称为频繁项集。强关联规则：当存在某个规则，其支持度大于等于最小支持度阈值同时其置信度大于等于最小置信度阈值时，则该规则被称为强关联规则。在对大型数据库进行挖掘过程中，由于所选取的最小支持度阈值过小而导致挖掘出的频繁项集过多，根据推理可以知道，如果存在一个频繁项集，则其所有的子集均是频繁项集，因为所有包含该项集的事务也将包含该项集的子集。设有一个长度为1000的频繁项集{b1，b2，…,b1000},则可以推断出其包含С（1000:1）个频繁1项集，同时包含С（1000：2）个频繁2项集，依次类推共包含С（1000：1）+С（1000：2）+С（1000：3）+…+С（1000：1000）=2的1000次幂-1个频繁项集。如此巨大的频繁项集将导致算法运行效率极其低下，于是有人提出闭频繁项集以及极大频繁项集的概念。闭频繁项集：设有频繁项集X其支持数为S，如果在事务集中无法找出一个项集Y使其同时满足X?Y并且Y在事务数据库中的支持数P=S，则称X为闭的。如果X在满足上述特性的基础上又同为该事务数据集中频繁项集，则称X为数据集S中的闭频繁项