大数据应用-基于大数据的推荐算法研究34.pptVIP

下载本文档

3
0
约 34页
2017-03-30 发布于贵州
举报
版权申诉

大数据应用-基于大数据的推荐算法研究34.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据应用-基于大数据的推荐算法研究34大数据应用-基于大数据的推荐算法研究34

* 前面探讨的方法都是按行和列对相乘的矩阵进行划分，这种划分方法只是矩阵划分的一种特殊形式。在确保左矩阵列的划分方式与右矩阵行的划分方式一致的前提下，我们还可以采用一般的矩阵划分方式。例如，可以将若干行（或若干列）划分为一块，或者将某些连续行和某些连续列的交叉部分划分为一块。为了方便阐述，下面约定将左矩阵划分为m1×s1的等大小矩阵，将右矩阵划分为s1×n1的等大小矩阵，最后。按照此约定我们可以得出分块后左右矩阵的大小，假设分块后A是M×S，B是S×N，则 M = (m - 1)/m1 + 1; S = (s - 1)/s1 + 1; (3) N = (n - 1)/n1 + 1; AB矩阵分别表示为。。。。。。剩下的计算和前面讨论的方法基本一样。一般分块形式的MapReduce实现采用定义的内积法，因为内积法可以通过改变矩阵子块的大小来灵活地调整并发粒度和产生的中间数据量，而外积法做不到这一点。采用内积法，中间数据量由分块大小来决定，分的块越大，中间传输量越小，分块越小中间传输数据量越大，比较极端的情况就是不进行分块，那么每个元素都是一块儿，这样就和前面内积法的并发粒度和中间数据量和前面分析一致。本文只讨论基于内积法的分块矩阵乘法的MapReduce实现，其他调整并发粒度和产生中间数据量的方法，均是在此方法基础上的改进。由分块后矩阵AB的表示可以看出，假设每一对子矩阵的乘积都需要一个Reduce工作节点，那么并发粒度为M×N×S。正如上面分析按列行分块的内积法MapReduce实现，A的一个子块需要传递到B矩阵同一行中的所有子块，因此A矩阵需要传递的数据元素数是，即总的数据元素数是m×s×N。同理，可以分析B的每一个子阵都需要传递到A矩阵同一列中的所有子阵，因此，B矩阵需要传递的数据元素数为，即总的数据元素数是s×n×M。那么需要通过shuffle阶段传递的数据元素总数为s×(m×N + n×M)。下面介绍下本文的实验结果。 * 所有实验均在一个由7台机器组成的集群中完成。集群采用Hadoop 1.0版本，由1个NameNode和7个DataNode构成。每个节点CPU为i5-2300 2.8G，4核8线程，内存容量为32G，操作系统使用Ubuntu 12.04。实验编写了一个随机矩阵生成器，通过设置参数行数m，列数n以及稀疏度delta，生成器可以生成一个维数为m*n稀疏度为delta的矩阵。通过改变m，n和delta来生成满足实验要求的各种矩阵。对于最后的扩展性实验，本文通过改变集群中机器的数量和不同的reduce任务数来观察工作节点数量对算法性能有何影响。首先，矩阵规模与运行时间的关系，采用6组实验数据，矩阵维数分别是1000×1000,5000×5000,10000×10000,15000×15000,20000×20000,25000×25000。这些实验数据均使用上面描述的矩阵生成器随机生成，稀疏度delta=1。本次实验将Hadoop实现的分布式方法中的分块法与单机算法进行对比，实验效果如上图4所示。从图4可以看出，当数据规模很小时，分块法不如单机算法，这主要是因为集群需要启动集群中各任务节点，而单机算法不需要这些准备工作，再者计算量太小，分布式算法不能有效利用集群中的计算资源，从而导致分块法效果不如单机算法。随着计算规模的增大，分块法的时间效率要远优于单机算法。当矩阵维数达到25000时，单机算法不能运行，程序提示“java.lang.OutOfMemoryError: Java heap space”；而分块算法完成计算只需要46179秒。另外，在集群上运行内积法，由于中间传输数据量太大，而且这些数据都是计算所需的数据，不能利用Hadoop框架进行优化，所以当数据规模很小时，仍需要很长时间计算，当方阵维数是1000时，就需要18133秒。而外积法将计算放在第二个作业的Map阶段，中间产生的数据运用Hadoop自身的优化框架进行优化，有效地减少了shuffle阶段传输的数据量，再者外积法自身比内积法的中间数据量小，从而当维数为1000时，只使用了721秒进行计算。相比而言，将右矩阵放入分布式文件系统的共享内存中，不需要Reduce操作，从而省去了读写磁盘IO以及shuffle阶段传输的数据量。它的运行时间是四种分布式算法中最少的，只需要77秒。当矩阵维数为5000×5000时，内积法和外积法由于生成的中间数据量超过了集群自身的容量，所以不能运行。而当数据规模很大时，共享内存空间亦不能容纳，所以下面的实验均是用分块法进行计算，因为分块法可以通过使用不同的分块策略来控制中间生成数据量，从而能够很好的把握集群资源的有效利用。在本次实验中分块法一律将矩阵分成100块，每个