- 1、本文档共82页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式聚类算法研究与应用-计算机应用技术专业论文
浙江大学硕 1:学位论文 摘要
摘要
随著信息技术的进步,数字图书馆的社会价值 H益凸显,数字图书馆的建设 受到了众多国家机构的高度重视。如何在现有资源的 J基础之上挖掘数字图书中的 信息,改进基于内容的数字图书枪索是数字图书馆研究的一个意要方面。本文主 要研究了分布式聚类技术及在数字图书馆中的应用。
数据规模日益增长的今天,大规模数据处理非常有挑战性。许多并行算法巳 被提出,如基于 MapReduce 的分布式 K-means 聚类算法、分布式谱聚樊算法等。 近邻传播 AP 聚类能克服 K咄咄ns 聚类算法的周限性,但是对海量数据的处理性 能不高。为了有效实现海量数据聚类,利用相似度稀疏化以及层次来样的方法, 我们提出了两个基于 AP 聚类改选的并行算法。在层次来样的方法中先将数据点 随机划分为规模相近的子集,并行地用 AP 聚类采样备子集,然后融合各子集的 采样数据再次进行 AP 聚类,最终用产生的聚类代表为所有数据点指派聚类中心。 在人工合成数据、人脸罔像数据、 IRIS 数据等数据集上的实验表明,该算法对数 据规模有很好的边服性,在保持 AP 聚类效果的同时可有效缩减聚类时间。
在研究了 Hadoop 中基于 MapReduce 的布式计算技术后,本文利用层次采样 的方法设计了基于 MapReduce 的分布式 AP 聚类算法一-DisAP ,并验证了DisAP 对数据规模的适应性。 DisAP 己应用到数字图书馆大规模数据挖掘与分析之中, 我们设计了针对中草药数字图书的多赚体信息检索框架。该框架首先利用图像处 理、特征抽取、关键词提取等技术分析数字图书的内容,然后利用爬虫技术收集 互联网资源与这些信息进行语义关联,并利用分布式 AP 聚类技术处理图像数据 生成视觉单词来表达图像的特征,最后在这些数据的基础上创建索引构建了数字 图书馆中医药搜索引擎。
关键词:数字图书馆,分布式 AP 聚类, MapReduce ,图像检索,视觉单词
浙江大学明 1:学位论文 Abstract
Abstract
With the rapid development of computer technology,the digital library has a growing impact on the promotion of social advance. And it has attracted lots of attention from many countries all over the world. In order to improve content-based retrieval of
digital books,there is a need to mine the information from digital books,which is an important research direction of digital library.ηlís paper conducts intensive research on the distributed clustering and its application in digitallibrary.
As the data grows explosively,it is a challenge for the traditional machine leaming
algorithm to deal with large scale data. Many parallel algorithms have been proposed to address the .problem,such as MapReduce based Kmeans algorithm and distributed spectral clustering algorithm. AP clustering (Affinity Propagation clustering) was
introduced to overcome some drawbacks of the traditional clustering methods such as K-means algorithm. However,its scalability and performance still need to be improved when dealing with large scale data. In this pape飞
您可能关注的文档
- 典型赤潮藻絮凝及絮凝过程实验研究-动力工程专业论文.docx
- 典型赤潮藻类可培养藻际细菌的分子鉴定与藻菌关系研究-水生生物学专业论文.docx
- 典型过渡金属离子活化过硫酸盐氧化水中磺胺甲噁唑的研究-建筑与土木工程专业论文.docx
- 典型轻合金表面形貌与微结构对电子功函数的影响-材料工程专业论文.docx
- 典型通信信号调制识别技术研究-通信与信息系统专业论文.docx
- 典型重金属离子对碱矿渣水泥水化及结构形成的影响-材料科学与工程专业论文.docx
- 典型运动体入水过程多相流动特性研究-一般力学与力学基础专业论文.docx
- 典型金属夹芯夹层楔形体板入水砰击力学特性分析-船舶与海洋结构物设计制造专业论文.docx
- 典型铅锌矿区优势植物重金属吸收性研究-植物学专业论文.docx
- 典型镁合金高温力学行为与组织分析-材料科学与工程专业论文.docx
- [北京]2025年北京市第八中学招聘笔试历年参考题库附带答案详解.docx
- 2025年手挽孔双内折环保袋制袋机项目可行性研究报告.docx
- [晋城]2024年山西中共晋城市人大常委会机关党组引进高层次人才笔试历年参考题库附带答案详解.docx
- 2024年生化化工药品技能考试-药品检验所笔试考试历年典型考题及考点含含答案.docx
- 2024年河北住院医师-河北住院医师预防医学笔试考试历年典型考题及考点含含答案.docx
- 2025年南京交通职业技术学院高职单招高职单招英语2016-2024年参考题库含答案解析.docx
- 2025至2030年螺纹绿圈铁质电筒项目投资价值分析报告.docx
- 2024年黑龙江建筑职业技术学院高职单招语文历年参考题库含答案解析.docx
- [宿州]2024年安徽宿州市公安机关招聘警务辅助人员330人笔试历年参考题库附带答案详解.docx
- [东莞]广东东莞大岭山镇公安分局招聘警务辅助人员10人笔试历年参考题库附带答案详解.docx
文档评论(0)