稀疏化相似矩阵并分析及MapReduce并行实现.docVIP

下载本文档

3
0
约3.32万字
约 10页
2016-10-10 发布于贵州
举报
版权申诉

稀疏化相似矩阵并分析及MapReduce并行实现.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

稀疏化相似矩阵并分析及MapReduce并行实现

（2）基于Hadoop MapReduce并行优化算法性能：目前，基于Hadoop MapReduce并行计算近似谱聚类算法研究刚起步，国内外学者基于Hadoop MapReduce并行计算主要侧重于优化聚类算法性能，提高聚类算法的加速比与可扩展性，以解决不能求解海量算数据聚类问题。研究k-means聚类算法特点，为获得加速比与扩展性，利用MapReduce并行化后部署到Hadoop集群运行[50]与利用Hadoop集群Mapreduce编程模型实现k-means聚类算法降低大数据聚类的时间复杂度[51]，以及利用Combine函数减少网络流量改进基于MapReduce传统的并行k-means聚类算法，用以分析和挖掘海量数据[52]；Plaza等人[53]结合高光谱图像中空间和谱信息，在基于商业用途的集群上（包括高性能并行计算体系结构：欧洲巴塞罗那并行计算中心的分布式存储、多指令多数据的多机组等）并行化使用多信道波形变换的无监督技术提出并行数据分析策略；Lv Z等人[54]基于MapReduce并行编程模型并行k-means 聚类算法聚类远程传感图像。文献[55]是该领域的理论专著，文献[56]和[57]分别是MapReduce并行大规模高维数据集研究的专著和最新的云计算分布式并行研究专著。目前，国内外基于Hadoop MapReduce并行聚类与谱聚类算法研究都处于刚起步状况，其发展趋势：向并行大规模高维数据的近似谱聚类方向发展。第三节论文工作量及主要贡献本文在确保谱聚类聚类质量（或准确性）的前提下，为聚类大规模高维数据，对k-means聚类中心初始化位置选择、距离相似度近似法、相似矩阵稀疏化方法、拉普拉斯矩阵特征向量分解、k-means聚类算法以及Apache Hadoop系统MapReduce并行框架进行了深入研究，介绍了谱聚类算法及其近似法研究现状，此外，简单介绍了基于Hadoop MapReduce谱聚类的发展趋势，Hadoop MapReduce平台架构与编程模型等，并从以下三个方面开展了相关研究工作。一、稀疏化相似矩阵并行分析及MapReduce并行实现相似矩阵中元素直接决定谱图矩阵中元素的构成，因此影响谱聚类准确性。基于国内外研究现状及发展趋势，本文在前人研究基础上，提出一种新的相似矩阵优化法---使用稀疏化Euclidean距离矩阵并调整为对称矩阵后，对相似矩阵列向量的离群点进行优化，并在优化引理的前提下理论证明该方法最优解的存在，并说明其时间复杂度。论文使用该方法应用于构建相似矩阵并基于Hadoop集群系统下MapReduce并行编程框架，对上述优化后的稀疏相似矩阵进行并行算法设计与并行编程实现，在设计的过程中，分析Hadoop MapReduce并行前后稀疏化近似相似矩阵的时间复杂度，以及通过大规模高维数据实验验证所设计的Hadoop MapReduce并行算法加速比，使用实验结果阐述应用该方法的ASC并行后的性能。二、特征向量分解并行分析及MapReduce并行实现相对于聚类而言谱聚类必须对拉普拉斯矩阵进行特征向量分解，否则，得不到数据集的低阶表示，即维简约。谱聚类算法时间复杂度正是由于其特征分解过程所产生的。针对大规模数据集而言，从理论分析可得出：k-means聚类的时间杂度（）相对于拉普拉斯矩阵特征向量分解几乎可忽略不计。因此，本文在前人研究基于MapReduce编程框架Tall and Skinny QR矩阵分解[58]的基础上对其进行修改，使其能够计算由近似相似矩阵求得的近似拉普拉斯近似矩阵的特征向量分解。并设计基于Hadoop集群系统下MapReduce并行编程框架的并行算法与并行编程实现，在设计的过程中，分析Hadoop MapReduce并行前后特征向量分解的时间复杂度，以及通过大规模高维数据实验验证所设计的Hadoop MapReduce并行算法加速比，使用实验结果阐述应用该设计的ASC并行后的性能。三、k-means聚类算法并行分析及MapReduce并行实现 k-means聚类中心初始化位置决定其算法收敛时迭代次数，直接影响谱聚类计算时间。基于国内外研究现状及发展趋势，本文基于Hadoop集群系统下MapReduce并行编程框架对适合聚类大规模数据集的粗糙集模型框架下基于数据密度Astrahan 的k-means聚类中心初始化位置选择方法进行算法时间复杂度及方法中迭代步骤之间依赖性进行分析，设计基于该方法的k-means聚类算法并行策略并编程实现。在设计的过程中，分析Hadoop MapReduce并行前后特征向量分解的时间复杂度，以及通过大规模高维数据集实验验证所设计的Hadoop MapReduce并行算法加速比，使用实验结果阐述应用该设计的ASC