- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce的高效用序列模式挖掘算法-计算机系统应用
计 算 机 系 统 应 用 2015 年 第 24 卷 第 12 期
①
基于MapReduce 的高效用序列模式挖掘算法
程思远, 马 超, 李聪聪
(复旦大学 计算机科学技术学院, 上海 201203)
(上海市数据科学重点实验室(复旦大学), 上海 201203)
摘 要: 由于数据规模的快速增长, 高效用序列模式挖掘算法效率严重下降. 针对这种情况, 提出基于
MapReduce 的高效用序列模式挖掘算法 HusMaR. 算法基于 MapReduce 框架, 使用效用矩阵高效地生成候选项;
使用随机映射策略均衡计算资源; 使用基于领域的剪枝策略来防止组合爆炸. 实验结果表明, 在大规模数据集下,
算法取得了较高的并行效率.
关键词: 序列模式; MapReduce; 剪枝策略; 高效用序列模式挖掘; 随机策略
High Utility Sequential Pattern Mining Algorithm Based on MapReduce
CHENG Si-Yuan, MA Chao, LI Cong-Cong
(School of Computer Science, Fudan University, Shanghai 201203, China)
(Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China)
Abstract: Because of the rapid growth of data, the high utility sequential pattern mining algorithms’ efficiency decreases
seriously. In view of this, we propose a high utility sequential pattern mining algorithm based on MapReduce, namely
HusMaR. This algorithm is based on MapReduce, which using the utility matrix to generate candidate efficiently,
random mapping strategy to balance of computing resources and field-based pruning strategy to prevent an explosion.
Experimental results show that in the large scale of data, the algorithm achieves a high parallel efficiency.
Key words: sequential pattern; MapReduce; pruning strategy; high utility sequential pattern mining; random strategy
[5] [6] [6]
在传统的序列模式挖掘应用中, 是将支持度(频次) 算法 , UI 算法 和 US 算法 ), 当面对大规模数据集
作为选择序列模式的基准[1-3]. 但是在实际应用中, 这 的输入时, 算法的运行效率会严重下降, 并且在大数
种基于支持度框架的序列模式挖掘算法得出的结果往 据环境下, 单机将无法
您可能关注的文档
- 台塑海运2018届航海类毕业生推介会-青岛远洋船员职业学院.PDF
- 台州湾循环经济产业集聚区-台州人事培训考试网.DOC
- 台北维格饼家太极凤梨酥.PPT
- 各自治区-江苏图书馆学会.PDF
- 台风的灾害与防护-Loxa教育网.PPT
- 合同格式-长沙口腔医院.DOC
- 合作共赢持续发展-中国进出口银行.PDF
- 合泰杯-重庆邮电大学教务处.DOC
- 合理的收入分配体系与和谐社会的构建-河北师范大学学报.PDF
- 合肥华威无功管理系统功能介绍_HWGK_II.DOC
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)