关联规则挖掘中改进型Diffsets算法.pdfVIP

下载本文档

15
0
约1.69万字
约 5页
2017-07-20 发布于北京
举报
版权申诉

关联规则挖掘中改进型Diffsets算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

孙志长等：关联规则挖掘中改进型Diffsets算法一．重一一蓍关联规则挖掘中改进型Diffsets算法孙志长，冯祖洪 (北方民族大学计算机科学与工程学院宁夏银川 750021) 一一～一一一一～一摘要：频繁项集挖掘是关联规则挖掘中至关重要的一步。对于稠密数据集的频繁项集挖掘，传统的挖掘算法往往产生大量无用的中间结果，造成内存利用率的极大浪费，尤其是在支持度较低的情况下。Diffsets算法通过引入 “差集”的概念，在一定程度上解决了挖掘过程中产生的大量中间结果与内存容量之间的矛盾。改进型Diffsets算法是在原算法的基础 __一m～～一堇．．-一一一主|一～呲邮D一一～一一～一～s引m=基一一要nⅢ～～．h一一～～一一州m～～一㈨～一一言l耐～～一一㈣～一一一一一一一～一唱上，在差集运算过程中根据差集中所包含的事务标识个数进行递减排序，进一步减少了挖掘过程中产生的中间结果数量。分析与实例表明，改进后的算法在执行过程中将占用更少的内存空间，加快了算法的收敛速度。关键词：数据挖掘；关联规则挖掘；频繁项集挖掘；Diffsets 中图分类号：TP311 文献标识码：B 文章编号：1004—373X(2008)22—080一O4 Improved DiffsetsAlgorithm inAssociation RulesM ining SUN Zhichang，FENG Zuhong (InstituteofComputerScienceandEngineering，North NationalityUniversity，Yinchuan，750021，China) 超过 2000亿美元。 1 引言关联规则挖掘通常分解为 2个主要的子任务：一是在过去的数十年中，人们收集数据的能力迅速提频繁项集的产生，其目标是发现满足最小支持度阈值的高。许多商务、科学和行政事务的计算机化，特别是万所有项集；二是规则的产生，其目标是从上一步发现的维网的流行，已经将人们淹没在数据和信息的海洋中。频繁项集中提取所有高置信度的规则_】]。通常，频繁项存贮数据的爆炸性增长已激发对新技术和自动工具的集产生所需要的计算开销远远大于规则产生所需的计需求，以便帮助人们将海量数据转换成信息和知识。关算开销。联规则挖掘就是按企业既定的业务目标，对大量的企业传统的频繁项集挖掘算法大多采用水平数据格式数据进行探索和分析，揭示隐藏的、未知的或验证已知来存储项集与事务集，如经典的 Apriori[2算法。的商业规律，且进一步将其模式化的数据处理方法。它 DepthProject_3]和MaxMiner 算法也利用这种格式来的最大特点是能够建立预测模型，预测未来的情况。目进行最大频繁项集的挖掘。后来人们又提出许多性能优异的垂直挖掘算法。对于稠密数据集，如中国移动的前，关联规则挖掘技术在各种类型的风险分析、资信评通话记录，Diffsets_5算法表现出良好的性能。Diffsets 估、医疗诊断决策和市场开发等