一种基于图的apriori改进算法分析及其系统实现-analysis and system implementation of an improved apriori algorithm based on graph.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于图的apriori改进算法分析及其系统实现-analysis and system implementation of an improved apriori algorithm based on graph
1绪论1.1课题背景本课题的目的有两个:一.对Apriori关联规则生成算法进行研究,并在其基础上提出一种改进的关联规则生成算法,并使新算法在时间复杂度和空间复杂度上相较原算法有所优化。二.以改进的关联规则生成算法为核心,对集中式数据库进行挖掘,将挖掘的时间与原算法进行比较以得出实验结果。本课题目标的体系结构如图1.1所示:图1.1体系结构图Apriori算法改进的目的是希望能够对算法在时间和空间上进行优化,以使得算法能够更好的适应大规模数据的挖掘,使返回结果的时间更快,并且挖掘过程中消耗的空间更少。1.2国内外研究现状1.2.1关联规则生成算法概述通常一个挖掘关联规则的过程可以被划分为两个阶段[1~3]:第一阶段,使用者根据最小支持度,从事务数据库中找出大于等于最小支持度的所有项目集[4]。第二阶段,从第一阶段得出的项目集中产生出频繁关联规则。从20世纪90年代,有很多学者试图去解决挖掘关联规则的问题[5~7]。最早在1993年Agrawal提出了AIS算法,但是AIS算法会产生过多的候选项目集,这使得他成为所有关联规则算法中效率最低的一种算法。所以在1994年Agrawal又提出了一种Apriori算法。在随后的这些年里有很多基于Apriori算法的改进算法被相继提出,例如:Savasere提出了Partition算法,Toivonen做出了Sampling算法,Park在1995年提出了利用DHP哈希技术的算法。通过以上可以看出,关联规则的研究问题不光是怎么样推导出相关项集的非空集合,还有如何提高推导过程的效率[8~9]。1.2.2关联规则挖掘的相关概念支持数[1]:当给出一项规则时,提取该规则中所含有的所有项集,并将其作为一个集合,随后扫描事务数据库,每扫描一条事务时,若该事务包含该项集集合,则将该项集集合所关联的值S做S=S+1操作,当对数据库扫描完成之后所得到的S值即为该项集在该事务数据库中的支持数。支持度:某规则的支持数除以事务数据库中总事务的条数即为该规则的支持度。设某商场中货架上有篮球,足球,运动衫,羽毛球拍,羽毛球,运动鞋等等,在统计该商场的每月销售记录时,利用数据挖掘得出如下规则:{运动衫,羽毛球拍}=〉{羽毛球}[支持度=4%,置信度=56%],4%的支持度意味着在所有购买事务中同时购买运动衫,羽毛球拍以及羽毛球的记录占据了所有购买记录事务的4%,它是一种对该规则有用性的衡量。置信度:依旧以上述商场每月销售记录为例,所挖掘出的规则{运动衫,羽毛球拍}=〉{羽毛球}[支持度=4%,置信度=56%],其中置信度=56%所代表的含义为在所有购买了运动衫和羽毛球拍的顾客中,有56%的人又同时购买了羽毛球。它反映的是所发现规则的确定性。总体来看关联规则的支持度和置信度是规则兴趣度的两种度量。最小支持度阈值和最小置信度阈值:这两个阈值是由用户或者相应领域专家来确定的,如果所挖掘出的规则同时满足这两个阈值,则说明所挖掘出的规则是有意义的,即可以作为用户对数据分析的依据。其中最小支持度阈值与事务数据库中事务的总条数的乘积用来作为在算法中从候选频繁项集筛选频繁项集的标准,即算法中的支持数。而最小置信度阈值则作为从已得出的频繁项集中推导出规则的标准。项集:事务中所包含的项的集合称为项集。如果一个项集中包含的项目个数为K,则称之为K项集。随后依次扫描事务数据库中事务,得出事务数据库中包含该项的事务条数,即为该项的频率(也可以称其为支持度计数或计数)。如式1-1所示:support(α=β)=P(α∪β)(1-1)如果该项集的支持度计数或者计数除以事务数总数,所得值大于等于最小支持度阈值。则该项集被称为频繁项集。强关联规则:当存在某个规则,其支持度大于等于最小支持度阈值同时其置信度大于等于最小置信度阈值时,则该规则被称为强关联规则。在对大型数据库进行挖掘过程中,由于所选取的最小支持度阈值过小而导致挖掘出的频繁项集过多,根据推理可以知道,如果存在一个频繁项集,则其所有的子集均是频繁项集,因为所有包含该项集的事务也将包含该项集的子集。设有一个长度为1000的频繁项集{b1,b2,…,b1000},则可以推断出其包含С(1000:1)个频繁1项集,同时包含С(1000:2)个频繁2项集,依次类推共包含С(1000:1)+С(1000:2)+С(1000:3)+…+С(1000:1000)=2的1000次幂-1个频繁项集。如此巨大的频繁项集将导致算法运行效率极其低下,于是有人提出闭频繁项集以及极大频繁项集的概念。闭频繁项集:设有频繁项集X其支持数为S,如果在事务集中无法找出一个项集Y使其同时满足X?Y并且Y在事务数据库中的支持数P=S,则称X为闭的。如果X在满足上述特性的基础上又同为该事务数据集中频繁项集,则称X为数据集S中的闭频繁项
您可能关注的文档
- 一体化进程中灵活就业人员工伤 失业保险分析-analysis of work-related injury and unemployment insurance for flexible employees in the process of integration.docx
- 一体化便携式脑血氧检测系统和性能验证-integrated portable brain blood oxygen detection system and performance verification.docx
- 一体化多级生物膜反应器处理中 高浓度小城镇污水试验分析-experimental analysis of integrated multistage biofilm reactor for treatment of medium and high concentration small town sewage.docx
- 一体化生物滤池处理城市污水试验分析-experimental analysis on treatment of municipal sewage by integrated biofilter.docx
- 一体化系统管理妊娠糖尿病患者的干预分析-intervention analysis on integrated system management of gestational diabetes mellitus patients.docx
- 一体化生物滤池处理城镇污水生产性试验分析-productive test analysis of integrated biofilter for treatment of urban sewage.docx
- 一体化农村生活污水生态处理箱试制及应用分析-trial production and application analysis of integrated rural domestic sewage ecological treatment tank.docx
- 一体化多通道变频器的分析与设计-analysis and design of integrated multichannel frequency converter.docx
- 一体化医学语言系统的语义相似度及推理分析-semantic similarity and reasoning analysis of integrated medical language system.docx
- 一体化校表机器人末端执行系统的分析及其实现-analysis and implementation of terminal execution system for integrated meter calibration robot.docx
- 一种基于无线射频芯片研发高性能agc放大器设计-design of high performance agc amplify based on radio frequency chip research and development.docx
- 一种基于物理拓扑结构的结构化p2p路由算法m-crp-can的设计与分析-design and analysis of a structured p2p routing algorithm m - crp - can based on physical topology structure.docx
- 一种基于旋转磁场的多电极电磁流量测量方法的分析-analysis of a multi-electrode electromagnetic flow measurement method based on rotating magnetic field.docx
- 一种基于压电陶瓷驱动的f p 可调谐滤波器的研制-development of f p tunable filter driven by piezoelectric ceramic.docx
- 一种基于压电陶瓷驱动的fp 可调谐滤波器的研制-development of fp tunable filter based on piezoelectric ceramic drive.docx
- 一种基于语义的建筑工程质量检测方法分析-analysis of a semantic-based quality inspection method for building engineering.docx
- 一种基于云计算的软件测试方法分析-analysis of a software testing method based on cloud computing.docx
- 一种基于液体棱镜的折射仪分析-analysis of a refractometer based on liquid prism.docx
- 一种基于直流母线的大功率led驱动电源的分析与设计-analysis and design of a high power led drive power supply based on dc bus.docx
- 一种基于智能io的iscsi hba的分析与实现-analysis and implementation of an iscsi hba based on intelligent io.docx
文档评论(0)