- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
————————————————————————————————————————————————
基于项编码的分布式频繁项集挖掘算法
作者 郑静益,邓晓衡
机构 中南大学 软件学院
DOI 10.3969/j.issn.1001-3695.2017.11.0791
基金项目 中南大学研究生科研创新项目(2017zzts612)
预排期卷 《计算机应用研究》2019 年第36 卷第5 期
摘要 Apriori 算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方
式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。
针对这一问题,提出了一种基于项编码和 Spark 计算框架的 Apriori 并行化处理方法——
IEBDA 算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项
集挖掘,同时利用Spark 的广播变量实现并行化处理。与其他分布式Apriori 算法在不同规模
的数据集上进行性能比较,发现IEBDA 算法从第一轮迭代后加速效果明显。结果表明,该算
法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。
关键词 频繁项集挖掘;Apriori 算法;大数据;分布式计算
作者简介 郑静益(1993-),男,江苏泰兴人,硕士研究生,主要研究方向为数据挖掘 机器学习;邓晓
、
衡(1974-),男(通信作者),湖南人,教授,博士,主要研究方向为无线网络通信 网格计
、
算与分布式处理 边缘计算 大数据分析(dxh@).
、 、
中图分类号 TP391
访问地址 /article/02-2019-05-027.html
投稿日期 2017 年11 月30 日
修回日期 2018 年1 月7 日
发布日期 2018 年3 月9 日
引用格式 郑静益, 邓晓衡. 基于项编码的分布式频繁项集挖掘算法[J/OL]. 2019, 36(5). [2018-03-09].
/article/02-2019-05-027.html.
36 5 Vol. 36 No. 5
第 卷第 期 计算机应用研究
优先出版 Application Research of Computers Online Publication
基于项编码的分布式频繁项集挖掘算法 *
郑静益,邓晓衡†
( 中南大学 软件学院, 长沙 410075)
摘 要:Apriori 算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法
效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark
计算框架的Apriori 并行化处理方法——IEBDA 算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情
况下完成频繁项集挖掘,同时利用Spark 的广播变量实现并行化处理。与其他
您可能关注的文档
最近下载
- 湖南省名校联考联合体2025-2026学年高一上学期10月联考语文试卷含答案.pdf VIP
- 部分常用岩土物理力学参数经验数值.doc
- 中南大学网校马克思主义基本原理考试.doc VIP
- 浙江省精诚联盟2025-2026学年高一上学期10月联考生物试卷含答案.docx VIP
- 2025-2026学年广东省广州市第一中学高一上学期10月月考数学试卷含详解.docx VIP
- 抖音爸爸博主“新父职”的数字实践研究_.pdf VIP
- 演示文稿青春期生长发育.ppt VIP
- 2023年中南财经政法大学公共课《马克思主义基本原理概论》期末试卷B(有答案).docx VIP
- 2024-2025学年广东省珠海市文园中学九年级(下)开学物理试卷.docx VIP
- 保健品营销策划.pdf VIP
文档评论(0)