基于项编码的分布式频繁项集挖掘算法-计算机应用研究.PDF

基于项编码的分布式频繁项集挖掘算法-计算机应用研究.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
———————————————————————————————————————————————— 基于项编码的分布式频繁项集挖掘算法 作者 郑静益,邓晓衡 机构 中南大学 软件学院 DOI 10.3969/j.issn.1001-3695.2017.11.0791 基金项目 中南大学研究生科研创新项目(2017zzts612) 预排期卷 《计算机应用研究》2019 年第36 卷第5 期 摘要 Apriori 算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方 式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。 针对这一问题,提出了一种基于项编码和 Spark 计算框架的 Apriori 并行化处理方法—— IEBDA 算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项 集挖掘,同时利用Spark 的广播变量实现并行化处理。与其他分布式Apriori 算法在不同规模 的数据集上进行性能比较,发现IEBDA 算法从第一轮迭代后加速效果明显。结果表明,该算 法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。 关键词 频繁项集挖掘;Apriori 算法;大数据;分布式计算 作者简介 郑静益(1993-),男,江苏泰兴人,硕士研究生,主要研究方向为数据挖掘 机器学习;邓晓 、 衡(1974-),男(通信作者),湖南人,教授,博士,主要研究方向为无线网络通信 网格计 、 算与分布式处理 边缘计算 大数据分析(dxh@). 、 、 中图分类号 TP391 访问地址 /article/02-2019-05-027.html 投稿日期 2017 年11 月30 日 修回日期 2018 年1 月7 日 发布日期 2018 年3 月9 日 引用格式 郑静益, 邓晓衡. 基于项编码的分布式频繁项集挖掘算法[J/OL]. 2019, 36(5). [2018-03-09]. /article/02-2019-05-027.html. 36 5 Vol. 36 No. 5 第 卷第 期 计算机应用研究 优先出版 Application Research of Computers Online Publication 基于项编码的分布式频繁项集挖掘算法 * 郑静益,邓晓衡† ( 中南大学 软件学院, 长沙 410075) 摘 要:Apriori 算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法 效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark 计算框架的Apriori 并行化处理方法——IEBDA 算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情 况下完成频繁项集挖掘,同时利用Spark 的广播变量实现并行化处理。与其他

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档