- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则挖掘的Apriori改进算法
摘 要关联规则挖掘是数据挖掘技术的一个重要分支,其中Apriori算法是最经典和最有影响力的算法。本文在讨论和分析了关联规则挖掘的基本概念后,提出了一种减少扫描数据库次数的改进算法。改进后的算法分析证明,它可以有效地提高数据挖掘的性能。
【关键词】关联规则挖掘 数据挖掘 Apriori算法
数据挖掘是从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据 。现今计算机技术与数据库技术在飞速地发展,如何从海量的数据中快速准确地找出有用的信息是数据挖掘问题中的一项重要研究内容。
在1994年,由Agrawal提出的Apriori算法,是关联规则里的一项基本算法,它的基本思想是重复扫描数据库,由长度为k的频繁项集进行迭代计算产生长度为k+1的候选集,再对数据库进行扫描判断其是否为频繁项集。
在过往的研究当中,许多文献提出了基于Apriori算法的改进。林佳雄等人提出的基于数组向量的Apriori算法改进 ,该算法改进了连接比较的次数、减少不必要事务的扫描和提高了算法对内存空间的利用效率。曹莹等人提出的基于向量矩阵优化频繁项的改进Apriori算法 ,赵学健等人的一种正交链表存储的改进Apriori算法,该算法Apriori算法复杂的自连接和剪枝过程进行了优化,简化了频繁项目集的生成过程,提高了Apriori算法的时间效率 。
1 关联规则挖掘的概况
关联规则挖掘是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。最早是为了发现超市交易数据库中不同的商品之间的关系。目的在于发现数据项之间的潜在关系,通过它提取出的信息将有助于人们把握和预测行业发展规律,从而更好地制定发展计划和规避风险。
那么问题如下所述:假设I={i1,i2,...im}是所有项目的集合,D是一个数据库,事务T是一个子项(TI)。每个T都有自己独特的标识 。A是由项目组成的集合,即项集。T包含A,当且仅当AT。如果项集A的项目数为k,则称为k维项目集。项集A的出现频率是包含项集的事务数,简称为项集的支持度。如果项集支持度超过由用户给定的最小支持度阈值,则称为频繁项集,简称频繁集。
关联规则是形如的蕴涵式,其中,X称为关联规则的先导,Y称为后继。其中,关联规则X与Y存在支持度和置信度。关联规则在D中的支持度(support)是D中事务同时包含X和Y的百分比,即概率。置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。
2 Apriori算法
2.1 核心思想
最著名的关联规则挖掘算法是Apriori算法,它是一种以概率为基础的关联规则算法,能实现从少到多,从简单到复杂寻找极大频繁集。Apriori算法主要利用了向下封闭属性:如果一个项集是频繁项目集,那么它的非空子集必定是频繁项目集。在运算过程中首先生成1-频繁项目集,再利用1-频繁项目集生成2-频繁项目集,然后根据2-频繁项目集生成3-频繁项目集,依次类推,直至生成所有的频繁项目集。最后从频繁项目集中找出符合条件的关联规则。
2.2 算法过程
Apriori算法采用递推的方法来生成所需的频繁集,主要步骤如下:
(1)制定最小支持度及最小置信度;
(2)Apriori算法使用了候选项集的概念,通过扫描数据库产生候选项目集,如果候选项目集的支持度不小于最小支持度,则该候选项目集为频繁项目集;
(3)从数据库中读入所有事务数据,得出候选1项集C1及相应的支持度数据,通过将每个1项集的支持度与最小支持度比较,得出频繁项集合L1,然后将这些频繁1项集两两连接,产生候选2项集和C2;
(4)然后再次扫描数据库得到候选2项集合C2的支持度,将2项集的支持度与最小支持度比较,确定频繁2项集。类似地,利用这些频繁2项集L2产生候选3项集和确定频繁3项集,以此类推;
(5)反复扫描数据库,与最小支持度比较,产生更高项的频繁项集合,再结合产生下一级候选项集,直到不再产生出新的候选项集为止;
3 Apriori算法的改进及分析
3.1 改进算法的思想
关联规则是其支持度和置信度分别满足用户给定阈值的规则,发现关联规则需要如下两步骤:
(1)找出所有的频繁集,其最后出现的频率和预定义的最小支持度是相同的。
(2)强关联规则是由频繁集产生的,它必须满足最小支持度和最小置信度。
但是Apriori算法由于需要多次扫描数据库,而造成过重的I/0负担,因此改进算法将通过减
您可能关注的文档
- 基于LTC6803的电动车锂电池管理系统设计.doc
- 基于LVDS的高速大容量数据传输系统的设计与实现.doc
- 基于Matlab的多模态医学图像融合仿真.doc
- 基于MATLAB的气象传真信号的FM解调算法.doc
- 基于Matlab的微电网孤岛运行仿真研究.doc
- 基于MATLAB的温度采集系统设计.doc
- 基于matlab的无线定位系统的设计与实现.doc
- 基于MATLAB的营养搭配方法.doc
- 基于MCGS和PLC的恒压供水控制系统.doc
- 基于microRNA和mtDNA的相关性阐述活血化痰中药防御心肌缺血再灌注损伤的分子机制.doc
- springbooot+vue基于java的房屋维修系统毕业论文.doc
- 中国消防救援学院《单片机系统实验》2023-2024学年第一学期期末试卷.doc
- 2025年溧阳纺织化学品项目申请.pptx
- 景区门票包销合同模板(3篇).docx
- 【股票技术指标学习指南】第七章第三节货币需要量的测算.doc
- 2025春 _ 人教版七年级英语下册【unit4】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit5】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit6】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit7】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit8】看音标写单词.doc
最近下载
- 公司绿化养护方案.pdf VIP
- 《农村公路技术状况评定标准》(JTG 5211—2024) .pdf VIP
- 患者跌倒、坠床的应急预案和处置流程.pptx VIP
- 事业单位考试职业能力倾向测验(医疗卫生类E类)试题及解答参考(2024年).docx VIP
- 第18讲 电容器 带电粒子在电场中的运动(学生版) 2025届高考物理一轮复习考点精讲精练(全国通用).pdf VIP
- 2023微细气泡技术 超细气泡水分散体系的存储和运输.pdf VIP
- 广西充电站可行性研究报告.docx VIP
- 中药材 黄芪 第1部分:种子种苗繁育技术规程.docx VIP
- 2025《期末模拟练习》语文八上-试卷.pdf VIP
- 高盛“最惊艳的中国制造业分析”报告.docx
文档评论(0)