频繁项集挖掘算法Apriori的改进的探究.pdfVIP

频繁项集挖掘算法Apriori的改进的探究.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
也轧技求工业工程版2005年10月 频繁项集挖掘算法Ap^州的改进研究 频繁项集挖掘算法Apriori的改进研究 王洪利冯玉强 (哈尔滨工业大学管理学院,哈尔演iS0001) 摘要:针对用于频繁项集挖掘的传统的Apfiofi算法具有多次扫描数据库、效率较低的缺点。本文 给出了一种基于向量运算的改进的Apriofi算法。首先扫描一次数据库,用向量表示1一项集,并对 卜项集计数,获得频繁1项集,然后产生候选2一项集.并利用向量运算获得2一项集的向量表示并 计数,产生频繁2项集,以此类推.直到所有的频繁项集都祓炭现,中闻已有的事斩压缩方法棱使 用压缩数据库减少计算量。最后通过实验与对比分析验证了谊方法具有较高的效率。 关键词:敦据挖掘;Apfiofi算法;频繁项;改进 一、刖 蓦 数据挖掘是数据库研究领域的重要研究内容。其在信息系统、管理科学等领域也有比较广泛的应用, 关联规则挖掘在商业领域,如购物篮分析中有着广泛应用,关联规则挖掘中,频繁项集的发现算法是其 算法具有扫描数据库多次、算法效率较低的缺点吐针对这一缺点,文献提出了许多改进研究【14’5“”, 但很少有改进算法在保证效率的情况下将扫描数据库的次效降到一次。本文提出了一种基于向量运算的 改进的Apriori算法。该算法仅扫描数据库一次,并通实验验与对比分析,验证了算法的效率。 二、传统的Apriori算法及其缺点m 用逐层浏览的方法。算法分为连接和剪枝两步骤。即先根据最小支持度找到频繁k项集Lk,由频繁k项 集自连接厶ot产生候选频繁k+l项集Ck.其中: 浏览数据库并计算按选项的 将候选项出现次数与 浏览数据库并计算候选 竺塑母毳…浏览数据库并计算候选项的出现 ———————刊r_——————————叫LkI 鼍兰!!!竺竺≥4三C习k—————竺竺兰趣 图1 Apriori算法的过程示意圈 3 18) 基禽项目:国隶自然辩掣基盒资助项目(7017101)?黑尤江省发曩信息产业毒向资金导向计劐项且(No.20031 ·94· 也轧杖求工业工程版2005年10月 频繁项集挖掘算法Ap^。n的改进研究 项ft和 fz可连接的条件: ,。[k—l】,:[≈~1]保证连接不产生重复,然后验证候选频繁k+l项集中的每一项的所有子集是否频繁, 定CIt+l中每个候选的计数,从而确定频繁项集Lk+l,整个过程的示意图如图1所示。 传统的Apriori的缺点在于对数据库的多次浏览。这样消耗了大量的运算时间,降低了算法的效率。 相关文献提出了许多改进的算法,但是这些算法没有使算法扫描数据库的次数降至最低一次的同时保证 算法具有较高的效率。下面首先给出了一种基于向最运算的Apriori算法的改进,此算法进扫描一次数 据库又保证了算法具有较高的效率;下面给出了一种改进的基于向量运算的改进Apriori算法,并通过 实验验证与对比分析了算法的有效性。 三、基于向量运算的Apriori算法的改进 1.传统的^priOF;的改进 的向量。以后的项集出现次数的计数通过向量问的运算来实现,此方法具有简单速度快的特点,免除了 多次大量数据从外存读人内存的时间。在下表中T。、T:、T3….、T。表示数据库中的事物记录 (Transaction 代表一个表示项在记录中出现情况的向量, 其中圹t。。当嚣≥兹:”∞^.,。小”^…,咿 其中列向量∞“,a4,a口,¨.,dw)’(j=l,2,….r1)表示项在记录中出现情况的向Jt。 表l向量示意图(每一列代表一个向量)

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档