实现Hadoop布式文件系统MapReduce.doc

下载文档 降价啦

2
0
约 7页
2016-11-23 发布于贵州
举报
版权申诉
保障服务

实现Hadoop布式文件系统MapReduce.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实现Hadoop布式文件系统MapReduce

摘　要随着互联网信息呈现几何级数增长，对与之产生的大规模高维数据的谱聚类的计算时间和内存使用提出了新的挑战。Hadoop MapReduce并行近似谱聚类算法为减少计算时间和内存使用而展开研究，首先，在构建近似谱聚类算法的稀疏化相似矩阵过程中，研究t最近邻稀疏化相似矩阵法和Nystr?m低阶子矩阵抽样近似相似矩阵法，侧重因在t最近邻稀疏化相似矩阵使用主观性设置扩大了参数t的近邻范围，而造成的稀疏化相似矩阵中离群点对近似谱聚类算法质量的影响。提出一种基于t最近邻近似相似矩阵离群点优化的解决方法，通过证明含有离群点的t最近邻近似相似矩阵在该优化方法中存在最优解，并把该方法应用于近似谱聚类算法，提出优化的近似谱聚类算法，以期提高大规模高维数据近似谱聚类的质量。此外，论文在近似谱聚类算法设计中使用最近邻粗糙集模型选择k-means初始化聚类中心位置，避免聚类大规模高维数据时，近似谱聚类算法获得空聚类或非最佳聚类的结果。通过将上述近似谱聚类算法与经典的基于正交化Nystr?m低阶子矩阵抽样近似相似矩阵谱聚类算法和基于最近邻稀疏化近似相似矩阵谱聚类算法进行辅助对比实验，结果显示虽然近似相似矩阵优化时间较高，但是其聚类精确度优于后者。论文主要设计并实现Hadoop分布式文件系统MapReduce并行计算编程模型下近似谱聚类算法对大规模高维数据的聚类。通过研究Mapper和Reducer并行编程流程及Hadoop MapReduce并行算法中相互依赖步骤分解，分别研究并设计基于MapReduce优化离群点的最近邻近似相似矩阵、Laplacian特征分解和基于最近邻初始化聚类中心位置的k-means并行策略与map()和reduce() 函数，并分析了Hadoop MapReduce并行前后各自的时间复杂度，其中所设计的并行策略与依赖步骤的分解处理也为机器学习、数据挖掘、模式识别、信息检索、Web数据分析、计算机视觉、医学成像、信号与图形图像处理以及生物信息学等领域提供一种分析大规模高维数据的参考思路。通过由12台Dell 2161服务器构成的Hadoop集群使用UCI Bag of Words数据集对所设计的MapReduce近似谱聚类算法的性能和聚类质量进行验证，实验结果显示所设计的并行近似谱聚类算法达到了一定的预期结果，并行实验中使用经典的聚类评估标准也进一步验证了所设计的并行近似谱聚类算法在处理大规模高维数据上的正确性和有效性。关键词：Hadoop分布式系统；MapReduce并行计算；近似谱聚类算法；稀疏化近似相似矩阵；Laplacian特征分解；k-means初始化方法；大规模高维数据 Abstract With the increasing exponentially of the scale of data on the Internet, spectral clustering suffers from a new challenge in both computational time and memory use for large-scale high-dimensional data. Based on the challenge, Hadoop MapReduce parallel approximate spectral clustering algorithm starts to embrace. First of and foremost, the thesis focuses on the process of constructing sparse similarity matrix in approximate spectral clustering algorithm. Investigate in-depthly the t nearest neighbors sparsifying similarity matrix method and Nystr?m low-rank submatrix sampling similarity matrix method insight into approximate similarity matrix and, Focusing on the t nearest sparse neighbor similarity matrix due to using subjective parameter t which is set so oversize that it expands the scope of neighbors, resulting in the inaccuracy impact of quality of approx