- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
孙志长等:关联规则挖掘中改进型Diffsets算法
一.重一 一蓍
关联规则挖掘中改进型Diffsets算法
孙志长 ,冯祖 洪
(北方 民族大学 计算机科学与工程学院 宁夏 银川 750021)
一一~一一一一~一
摘 要:频繁项集挖掘是关联规则挖掘中至关重要的一步。对于稠密数据集的频繁项集挖掘,传统的挖掘算法往往产
生大量无用的中间结果,造成 内存利用率的极大浪费,尤其是在支持度较低的情况下。Diffsets算法通过引入 “差集”的概
念,在一定程度上解决了挖掘过程中产生的大量中间结果与内存容量之间的矛盾。改进型Diffsets算法是在原算法的基础
__一m~~一堇..-一一一主|一~呲邮D一一~一一~一~s引m=基一一要nⅢ~~.h一一~~一一州m~~一㈨~一一言l耐~~一一㈣~一一一一一一一~一唱
上,在差集运算过程中根据差集中所包含的事务标识个数进行递减排序,进一步减少了挖掘过程 中产生的中间结果数量。
分析与实例表 明,改进后的算法在执行过程 中将 占用更少的内存空间,加快 了算法的收敛速度。
关键词 :数据挖掘 ;关联规则挖掘 ;频繁项集挖掘 ;Diffsets
中图分类号:TP311 文献标识码 :B 文章编号:1004—373X(2008)22—080一O4
Improved DiffsetsAlgorithm inAssociation RulesM ining
SUN Zhichang,FENG Zuhong
(InstituteofComputerScienceandEngineering,North NationalityUniversity,Yinchuan,750021,China)
超过 2000亿美元。
1 引 言
关联规则挖掘通常分解为 2个主要的子任务:一是
在过去的数十年 中,人们收集数据的能力迅速提 频繁项集的产生,其 目标是发现满足最小支持度阈值的
高。许多商务、科学和行政事务的计算机化,特别是万 所有项集 ;二是规则的产生 ,其 目标是从上一步发现的
维网的流行,已经将人们淹没在数据和信息的海洋中。 频繁项集中提取所有高置信度的规则_】]。通常,频繁项
存贮数据的爆炸性增长已激发对新技术和 自动工具的 集产生所需要的计算开销远远大于规则产生所需的计
需求,以便帮助人们将海量数据转换成信息和知识。关 算开销。
联规则挖掘就是按企业既定的业务 目标,对大量的企业 传统的频繁项集挖掘算法大多采用水平数据格式
数据进行探索和分析 ,揭示隐藏 的、未知的或验证 已知 来存储 项集 与事 务集 ,如经 典 的 Apriori[2算法 。
的商业规律,且进一步将其模式化的数据处理方法。它 DepthProject_3]和MaxMiner 算法也利用这种格式来
的最大特点是能够建立预测模型,预测未来的情况 。目 进行最大频繁项集 的挖掘。后来人们又提出许多性能
优异的垂直挖掘算法。对于稠密数据集 ,如中国移动的
前,关联规则挖掘技术在各种类型的风险分析、资信评
通话记录,Diffsets_5算法表现出良好的性能。Diffsets
估、医疗诊断决策和市场开发等
文档评论(0)