高维数据中频繁项集生成算法的研究.pdfVIP

高维数据中频繁项集生成算法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高维数据中频繁项集生成算法的研究.pdf

,1.... .... 口 同 维数据中频繁项集生成算法的研究 姜请超 (河北软件职业技术学院,保定07101)0) 【摘 要】在关联规则的挖掘中,频繁项集的生成是影响算法性能和效率的关键因素。随着数据维数的增大,传统的关联规则挖掘算法显然 无法适应高维数据挖掘的需求。本文针对高维数据 中关联规则的挖掘I-1题提 出了.SplitMtrix_Apriori算法。该算法通过生成数据库的布尔矩 阵减少 了在频繁项集的生成中需多次扫描数据库所带来的开销,从根本上提高了算法的效率。 【关键词 】数据挖掘 Apriori算法 .splitMtrix_Apriori算法 一 、 引言 七_-1的列,和删除支持度计数小于最小支持度的项所对应的行 在关联规则算法中最著名的算法是 Apriori算法 ,是A— 向量。然后迭代上面的过程,得到每一个分组的最大 频繁集 grawal和 Srikantt于 1994年提出的,也是一个广度优先的算 (_,)。然后再由每一组中最大频繁项集中的项重新组成布尔 法。Apriori算法采取了自底向上 、分层搜索策略,这意味要找 矩阵,迭代上述的过程直至没有频繁项集生成时算法结束。 到k_项集,就需要做 k次迭代。虽然Apriori算法能够很好的 2、SplitMtrix_Apriori算法描述 计算频繁集挖掘出关联规则,但其算法的效率不是太好。因为 (1)StepI、建立事务数据库Boolean矩阵。扫描数据库D, Ariori算法的候选集都很大 ,通过Hash技术可以压缩候选 K 然后将其转化为一个压缩的事务布尔矩阵。行向量代表项 一 候选集,在 cA川)zD 一 1Ⅳ函数部分减少计算开销;事 (1tem),列向量代表事务 ,同时并建立一个行向量对事务计数。 务压缩主要是利用关联规则计算的一些定理,来裁剪一些冗 扫描一条事务记录,然后将其转化为一条代表事务的列向量。 余事务,降低在计算频繁集时扫描交易数据库的记录范围。本 然后,核对该条向量是否存在矩阵中,如果存在则将对应的事 文从分组和压缩矩阵的角度对高维数据中频繁项集的挖掘算 务计数加l;如果不存在,将该向量加入矩阵,并将该事务计数 法进行了讨论。 设置为 l。在布尔矩阵中相同的事务只有一条记录用相应的事 二、算法依据的主要定理 务计数 来表示该事务的真实的记录数。如果事务数据库 D 定理 2.1在事务数据库D中,事务记录 豫 包含的最大项 拥有rn个项和n条事务记录,经过扫描后生成m行n列的布 集 A,而且IAI=C,如果 c2,则可 以删除豫 所对应 的列 向量 尔矩阵Dmxn,其中每个元素 的按式 2生成。 fdik,dik,……..dik}T。 (2)Tc(s)为行向量负责为每一个事务出项的频数计数,该 证明:在事务豫 中,其包含的最大项集A,则其对于任意 行向量起着压缩矩阵的作用。Step2、对事务数据库矩阵进行分 项集 B,BA 组。为了减少在频繁项集的生成过程中由于数据维数过高而 ’ . .1B{≤lAl,IAl≤2 增加的时间开销,本算法采取了分组执行的策略。根据式3确 ‘ . . IBl≤2 定的策略进行分组。

文档评论(0)

天狗行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档