分布式聚类算法研究与应用-计算机应用技术专业论文.docx

下载文档 降价啦

20
0
约7.13万字
约 82页
2018-12-06 发布于上海
举报
版权申诉
保障服务

分布式聚类算法研究与应用-计算机应用技术专业论文.docx

1、本文档共82页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式聚类算法研究与应用-计算机应用技术专业论文

浙江大学硕 1:学位论文摘要摘要随著信息技术的进步，数字图书馆的社会价值 H益凸显，数字图书馆的建设受到了众多国家机构的高度重视。如何在现有资源的 J基础之上挖掘数字图书中的信息，改进基于内容的数字图书枪索是数字图书馆研究的一个意要方面。本文主要研究了分布式聚类技术及在数字图书馆中的应用。数据规模日益增长的今天，大规模数据处理非常有挑战性。许多并行算法巳被提出，如基于 MapReduce 的分布式 K-means 聚类算法、分布式谱聚樊算法等。近邻传播 AP 聚类能克服 K咄咄ns 聚类算法的周限性，但是对海量数据的处理性能不高。为了有效实现海量数据聚类，利用相似度稀疏化以及层次来样的方法，我们提出了两个基于 AP 聚类改选的并行算法。在层次来样的方法中先将数据点随机划分为规模相近的子集，并行地用 AP 聚类采样备子集，然后融合各子集的采样数据再次进行 AP 聚类，最终用产生的聚类代表为所有数据点指派聚类中心。在人工合成数据、人脸罔像数据、 IRIS 数据等数据集上的实验表明，该算法对数据规模有很好的边服性，在保持 AP 聚类效果的同时可有效缩减聚类时间。在研究了 Hadoop 中基于 MapReduce 的布式计算技术后，本文利用层次采样的方法设计了基于 MapReduce 的分布式 AP 聚类算法一-DisAP ，并验证了DisAP 对数据规模的适应性。 DisAP 己应用到数字图书馆大规模数据挖掘与分析之中，我们设计了针对中草药数字图书的多赚体信息检索框架。该框架首先利用图像处理、特征抽取、关键词提取等技术分析数字图书的内容，然后利用爬虫技术收集互联网资源与这些信息进行语义关联，并利用分布式 AP 聚类技术处理图像数据生成视觉单词来表达图像的特征，最后在这些数据的基础上创建索引构建了数字图书馆中医药搜索引擎。关键词:数字图书馆，分布式 AP 聚类， MapReduce ，图像检索，视觉单词浙江大学明 1:学位论文 Abstract Abstract With the rapid development of computer technology，the digital library has a growing impact on the promotion of social advance. And it has attracted lots of attention from many countries all over the world. In order to improve content-based retrieval of digital books，there is a need to mine the information from digital books，which is an important research direction of digital library.ηlís paper conducts intensive research on the distributed clustering and its application in digitallibrary. As the data grows explosively，it is a challenge for the traditional machine leaming algorithm to deal with large scale data. Many parallel algorithms have been proposed to address the .problem，such as MapReduce based Kmeans algorithm and distributed spectral clustering algorithm. AP clustering (Affinity Propagation clustering) was introduced to overcome some drawbacks of the traditional clustering methods such as K-means algorithm. However，its scalability and performance still need to be improved when dealing with large scale data. In this pape飞