基于成对约束半监督聚类算法研究及其并行化实现.docVIP

  • 5
  • 0
  • 约4.67万字
  • 约 67页
  • 2016-06-07 发布于贵州
  • 举报

基于成对约束半监督聚类算法研究及其并行化实现.doc

国内图书分类号:T 密级:公开 国际图书分类号:6.14 西 南 交 通 大 学 研 究 生 学 位 论 文 级 二〇一〇级 姓 名 林 超 申请学位级别 专 业 指导老师 二零 年 月 Classified Index: T U.D.C: 681.14 Southwest Jiaotong University Master Degree Thesis SEMI-SUPERVISED CLUSTERING ALGORITHM BASED ON PAIRWISE CONSTRAINTS AND ITS PARALLEL IMPLEMENTATION Grade: 2010 Candidate: Lin Chao Academic Degree Applied for: Master Speciality: Computer Application Supervisor: Prof. Yang Yan May, 2013 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1.保密,在 年解密后适用本授权书; 2.不保密,使用本授权书。 (请在以上方框内打“√”) 学位论文作者签名: 指导老师签名:日期: 日期: 西南交通大学硕士学位论文主要工作(贡献)声明 本人在学位论文中所做的主要工作或贡献如下: 针对半监督聚类算法Cop-Kmeans中的约束违反问题,提出了一种全新的改进方案。该方案不仅能够使程序在迭代过程中完全避免约束违反,在算法运行时间效率上也明显优于传统的改进方案。 针对成对约束自身特征在半监督聚类算法中给聚类结果可能造成的不良影响,进一步提出了相应的改进方案。即分别为Must-Link和Cannot-Link约束组制定了新的分配规则,能够最大限度的削弱成对约束的这种不良影响,进而能够在一定程度上提高聚类结果的精度。 利用MapReduce计算模型对改进的半监督聚类算法进行并行化实现,并在Hadoop搭建的并行处理平台上处理大数据集,大大提高了聚类效率。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。 学位论文作者签名: 日期: 关键词: Abstract As an important method in the field of data mining, cluster analysis is able to find the natural distribution structure of the data objects. It is a process that divides objects into the similar class according to their attribute. The goal of the cluster is that the similarity of objects from the same group is larger than the similarity of objects from the different group. From the perspective of machine learning, clustering analysis is an unsupervised learning method, and we don’t need any background knowledge when analyze on data objects. However, we can always get some information of the data objects to be an

文档评论(0)

1亿VIP精品文档

相关文档