网站大量收购独家精品文档,联系QQ:2885784924

关联规则中的apriori算法的的研究与改进.pdf

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则中的apriori算法的的研究与改进

关联规则中的Apriori算法的研究与改进 摘要 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,数据资 料的规模急速膨胀。于是,人们希望有新一代的技术和工具能够智能地自动地帮 助人们分析已经消耗大量财力和物力所收集与整理的海量数据,以发现有用的知 识,达到为决策服务的目的。因此,面对“人们被数据淹没,人们却饥饿于知识” 的挑战,数据挖掘技术应运而生,并得以蓬勃发展。数据挖掘是当今人工智能和 数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有 用的知识的过程。关联规则挖掘是数据挖掘的主要研究内容。而频繁项目集的发 现是关联规则挖掘的核心问题。 本文详细描述了数据挖掘、关联规则的基本理论以及关联规则挖掘的经典算 法Apriori算法,并对经典Apriori算法进行了分析发现其存在着规则冗余度大、 效率不高和不能挖掘定量规则等缺陷。本文针对此算法的算法瓶颈问题提出了两 种改进方法,如下: 1.针对经典Apriori算法运行效率瓶颈问题,结合位集合占用内存空间少、 逻辑运算快的特点,本文提出一种基于项集位逻辑运算的改进算法:BA埘。五 算法。该算法通过一次数据库扫描,构建事务集位集合;采用项集位逻辑“与” 运算和位统计操作确定频繁项集;改进连接和剪枝策略,采用项集位的逻辑“或” 运算,统计运算结果重复出现次数,生成候选项集。实验证明,通过与经典Apriori 算法的对比可以发现,B iroirpn_库据数了免避法算该。少减显明间时行运法算 的重复扫描和繁琐的连接减枝操作,进一步提高了Apriori算法的运行效率。 2.针对经典Apriori算法在统计事务库中的项时要反复扫描事务库,算法开销 很大的问题,本章结合数学中矩阵以及向量内积的概念上提出了一种新的Apriori 行了改进,减少了产生的候选频繁项集Ck中项集的数据,也减少了剪枝过程 中的运算次数,在统计支持度阶段减少了需要扫描的数据库中的事务数。而且计 算机进行向量运算和位运算速度更快,程序也会更容易实现。实验证明,新算法 在系统的开销和时闯效率上都有很大的提高。 关键词:数据挖掘;关联规奂I];Apriori算法;位集合;垂直向量 n i of i ori AI tlln Researchand Apr gor ImprovemenT.for RuIe Assetiation Abstract and dam information The of technology ProducingcoUec血gbyusing ability thesizeofthedata it overthese causes expandsrapidly.So greatly years.It improved thereare new andtoolstO the is that some technologies help analyze hoped people

文档评论(0)

almm118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档