无预设类别数的大数据量聚类算法的研究.pdfVIP

下载本文档

10
0
约5.12万字
约 54页
2015-11-01 发布于安徽
举报

无预设类别数的大数据量聚类算法的研究.pdf

摘要摘要由于计算机科学与技术的发展，特别是计算机网络的发展，人们面对着越来越多的海量的信息。尤其是数据库的大量应用，在各个行业各个领域都积累了十分丰富的数据，“丰富的数据与贫乏的知识”的问题也日渐突出。近几十年间，知识发现(规则提取、数据挖掘、机器学习等)应运而生，受到人工智能学界的广泛重视，知识发现的各种不同方法应运而生。所谓数据挖掘，就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式，进而发现有用的知识，并得出时间的趋向和关联，为用户提供问题求解层次的决策支持能力。与此同时，聚类作为数据挖掘的主要方法之一，也越来越引起人们的关注。在知识发现的任务中，人们常常要面临大量数据的处理任务，特别是随着网络信息的不断增长和各个复杂领域例如金融数据，医疗诊断，卫星探测等数据的增长，现在面临的处理对象经常上百万、千万，计算机的处理能力往往显得不足。并且大量的数据会给知识发现的知识获取方法带来很多困难。本文介绍了常用聚类的方法及其原理，并对其局限性和优势进行综合分析，试图通过融合不同的聚类算法思想，来综合利用特定算法的优点，使其不但具有能处理大数据量的能力，而且无需预设类别数目，从而来提高聚类的准确性并减少聚类的不稳定性。通过理论分析和实验证明，原始AP算法是不能解决大数据量的问题。我们通过融合原始AP聚类算法和K—Means聚类算法，提出了KMAP聚类算法。通过理论分析和实验，证明改进型KMAP新算法不但能解决原始AP聚类算法不能处理大数据的问题，提高了其适用的范围，而且解决了K—Means聚类算法受输入数据集的顺序影响而造成的不稳定的问题。同时针对KMAP出现的“K” 值不易确定问题，提出了KCAP聚类算法，来减少“K”值对l(MAP的影响，从而使KMAP算法达到无需预设类别数目。关键词：数据挖掘，聚类，AP聚类，K—Means聚类摘要 II Abstl．act Witll me of scienceaIld deVel叩ment conlputer technology，especiallycomputer a11dmore are幽ced惭tllaf100dof net、Vorks，morepeople info肌ation．In panicul矾 duetotlle of ofdatahaVebeen applicationda妇base，a accumulatedin large删mber Variousfieldsand industries．Thewealthofdataand problem”a poorknowledge”is becoming recent increasinglyprominent．In decades，knowledgediscove巧(mle extraction，data into anificial milling，machinele撇ing，etc．)c锄e beingreceiving scholars’eXtensiVeattention．Aof intelligence dia’eremme

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

无预设类别数的大数据量聚类算法的研究.pdfVIP