- 2
- 0
- 约7.76千字
- 约 14页
- 2016-04-19 发布于安徽
- 举报
分布式图形实验:机器学习框架以与云技术中数据挖掘.doc
分布式图形实验:机器学习框架以及云技术中的数据挖掘
摘要:
像MapReduce这类高级数据并行处理框架在对大规模数据处理系统的设计与实现进行简化的同时,并不能天然地或者高效的支持许多重要的数据挖掘和机器学习算法,在此基础上构建的机器学习系统往往是低效的。为填补这一空白,我们引入Graphlab,它实现了异步、动态的并行图计算模式,同时保证数据一致性,且在共享内存基础上具有很好的计算并行度。在本论文中,我们从Graphlab框架本身拓展到更具实际意义、更有挑战性的具有健壮数据一致性的分布式计算。我们在图计算基础上扩展开发了流水线锁定和数据版本技术来减少网络拥塞和降低网络传输开销。同时,我们介绍了使用经典Chandy-Lamport快照算法实现的容错机制,并论证了可以在Graphlab框架基础上方便的实现。最后,我们评价了我们的分布式实现方案在亚马逊虚拟计算平台上的性能,并展示了相对于Hadoop的实现方案,亚马逊虚拟机群部署Graphlab系统会有1到2个数量级的性能提升。伴随着机器学习和数据挖掘任务的规模增长、复杂度提升,急需一个能够在大规模集群上快速并行执行数据挖掘和机器学习任务的系统。同时,像亚马逊弹性计算云这样的云集算服务提供了在不具备实体集群情况下进行大规模节点计算的可能。不幸的是,设计、实现并且调试分布式机器学习和数据挖掘算法需要能够对云集群非常熟练的使用,这些对机器
您可能关注的文档
最近下载
- 《世间哪有这样的情》女声二重唱(歌剧《沂蒙山》选段)正谱.pdf VIP
- 人民大2024自考教学课件-领导科学 教材配套PPT.pptx VIP
- 2025年2025军考士官试卷及答案.doc VIP
- 2025年水利工程质量检测员考试(混凝土工程)历年参考题库含答案详解.docx VIP
- 吉林省地方教材东北话PPT课件.pptx VIP
- 车内声品质主动控制算法.pdf VIP
- 六年级道德与法治下册10《我们爱和平》课件.pptx VIP
- 《无人机飞行操控技术(微课版)》全套教学课件.pptx
- 2025年中国宠物行业白皮书.docx
- TB 10091-2017《铁路桥梁钢结构设计规范》.docx VIP
原创力文档

文档评论(0)