分布式图形实验:机器学习框架以与云技术中数据挖掘.docVIP

  • 2
  • 0
  • 约7.76千字
  • 约 14页
  • 2016-04-19 发布于安徽
  • 举报

分布式图形实验:机器学习框架以与云技术中数据挖掘.doc

分布式图形实验:机器学习框架以与云技术中数据挖掘.doc

分布式图形实验:机器学习框架以及云技术中的数据挖掘 摘要: 像MapReduce这类高级数据并行处理框架在对大规模数据处理系统的设计与实现进行简化的同时,并不能天然地或者高效的支持许多重要的数据挖掘和机器学习算法,在此基础上构建的机器学习系统往往是低效的。为填补这一空白,我们引入Graphlab,它实现了异步、动态的并行图计算模式,同时保证数据一致性,且在共享内存基础上具有很好的计算并行度。在本论文中,我们从Graphlab框架本身拓展到更具实际意义、更有挑战性的具有健壮数据一致性的分布式计算。我们在图计算基础上扩展开发了流水线锁定和数据版本技术来减少网络拥塞和降低网络传输开销。同时,我们介绍了使用经典Chandy-Lamport快照算法实现的容错机制,并论证了可以在Graphlab框架基础上方便的实现。最后,我们评价了我们的分布式实现方案在亚马逊虚拟计算平台上的性能,并展示了相对于Hadoop的实现方案,亚马逊虚拟机群部署Graphlab系统会有1到2个数量级的性能提升。伴随着机器学习和数据挖掘任务的规模增长、复杂度提升,急需一个能够在大规模集群上快速并行执行数据挖掘和机器学习任务的系统。同时,像亚马逊弹性计算云这样的云集算服务提供了在不具备实体集群情况下进行大规模节点计算的可能。不幸的是,设计、实现并且调试分布式机器学习和数据挖掘算法需要能够对云集群非常熟练的使用,这些对机器

文档评论(0)

1亿VIP精品文档

相关文档