硕士研究生论文-答辩.ppt

下载文档 降价啦

5
0
约5.21千字
约 30页
2017-03-20 发布于四川
举报
版权申诉
保障服务

硕士研究生论文-答辩.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Cloud Computing 分别执行Canopy算法和Kmeans算法 Cloud Computing 实验结果分析并行算法收敛曲线图算法加速比分析 Cloud Computing 算法可扩展性分析 1 2 3 课题的背景基于Hadoop平台的Canopy-Kmeans并行算法课题总结 Cloud Computing 4 实验与结果分析课题总结——已完成的工作针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类中心敏感等问题，提出了一种基于Hadoop平台的并行CK-means聚类算法，该算法采用Canopy算法和余弦相似度度量来改善K-means算法在确定初始聚类中心的盲目性，采用并行计算框架对算法并行扩展，使之能够适应海量数据处理。实验结果表明提出的基于Hadoop 平台的CK-means并行算法具有更好的聚类质量，在处理海量数据时具有良好的加速比和扩展性。课题总结——已完成的工作本文的主要工作有：（1）针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类中心敏感等问题，提出了一种基于Hadoop平台的并行CK-means聚类算法。（2）通过利用代价低的余弦相似性度量方式的Canopy算法快速获取聚类中心作为K-means并行算法的初始聚类中心，加快K-means算法的收敛速度。（3）该算法对原始数据使用基于余弦相似度度量方式的Canopy算法进行聚类和覆盖划分，使得并行K-means算法进行精确聚类时不需要计算不处于同一个 Canopy的点之间的距离，这在很大程度上减少计算量。（4）实验验证所提出的CK-means算法的聚类质量、加速比和扩展性。研究进度—存在的问题虽然在搭建好的Hadoop平台上对本文提出的一种基于Hadoop平台的CKmeans算法进行了实验验证，但实验数据单一，并且由于条件有限，adoop平台下处理数据的结点较少，这也造成了该算法在不同量的结点上得出的结论，且本实验没有在单机模式下也就是看kmeans串行算法进行对比实验，这也将是论文下一步的工作重点。课题总结——下一步改进计划（1）继续对Hadoop平台的相关技术进行研究，对Hadoop中的HDFS分布式存储系统与MapReduce编程模式做进一步研究。（2）继续完善实验平台，由于实验室结点有限，以后要尽量选择多的节点对本文提出的算法进行并行实验，并选择不同数据集对本文提出的算法验证。期刊论文发表情况（已见刊）卢胜宇，王静宇，张晓琳，高俊峰．基于Hadoop平台的K-means聚类算法优化研究[J]．内蒙古科技大学校报，2016，35：264-268. 谢谢 * 基于Hadoop数据挖掘算法研究导师：王静宇学生：卢胜宇 Cloud Computing 1 2 3 课题的背景基于Hadoop平台的Canopy-Kmeans并行算法课题总结 Cloud Computing 4 实验与结果分析相关概念 Cloud Computing 课题背景聚类算法及其分类 Kmeans算法 Canopy算法 Hadoop MapReduce Cloud Computing 聚类算法及其分类聚类是对点进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间距离比较短，而不同簇中点之间距离较大。课题背景 Cloud Computing 课题背景聚类主要包括以下几个过程：数据准备、特征选择、提出、特征提取、聚类、聚类结果验证。动态的聚类过程步骤如下所示： Cloud Computing 课题背景 Canopy 算法是 McCallum提出的一种简单、快速、但不太准确的聚类方法，是专门应对高维海量数据源的一种新型聚类算法。算法的思路是：首先在计算数据样本距离时采用算法复杂度低的距离度量(metric distance)，把样本数据集划分为一些部分重叠的子集，这种子集称之为华盖(canopies)。然后，在传统聚类中，比如 k 均值，应用复杂度高的度量距离，进一步计算，从而使得高维海量数据源聚类难题易于实现。 K-Means算法是由 MacQueen 提出来的，该算法思想简单，实现相对容易，在多个学科里面都有广泛应用。它是聚类算法中最常见的划分方法，所谓的划分方法就是给定一个包含 n 个数据对象的数据集，将数据集划分为 k 个子集，其中每个子集均代表一个聚类，同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。 Cloud Computing Hadoop平台 Hadoop是Apache旗下开源的分布式计算框架,可编写以及可运行分布式应用来处理大规模数据。Hadoop