基于大型数据集聚类算法研究.docVIP

下载本文档

1
0
约2.33千字
约 5页
2018-10-30 发布于福建
举报
版权申诉

基于大型数据集聚类算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于大型数据集聚类算法研究

基于大型数据集聚类算法研究　　摘要：就精确系数不算太严格的情况而言，针对各种大型数据集，通过对比各种聚类算法，提出了一种部分优先聚类算法。然后在此基础之上分析研究聚类成员的产生过程与聚类融合方式，通过设计共识函数并利用加权方式确定类中心，在部分优先聚类算法的基础上进行聚类融合，从而使算法的计算准度加以提升。通过不断的实验，我们可以感受到优化之后算法的显著优势，这不仅体现在其可靠性，同时在其稳定性以及扩展性、鲁棒性等方面都得到了很好的展现。　　关键词：部分优先聚类算法；聚类融合；效率；精度　　中图分类号：TP393 　　文献标识码：A 　　DOI： 10.3969/j.issn.1003-6970.2016.01.030 　　0 引言　　针对大型的数据来说，过去的聚类手段存在下面两个关键的不足。首先就是其数据集不够稳定，与低维相比，高维的分布更加广泛，这往往会出现数据之间等距的现象，通常而言，我们会按照距离来展开聚类工作，这样意味着高维数据集的构建难度进一步加大；其次，就高维数据集而言，其内在的属性往往没有直接的联系，所以基本上在所有维中存在类的概率为0。　　1 部分优先聚类算法（Partial PriorityAlgorithm PPA）　　就引言中的问题展开研究，进而提出部分优先算法，首先将第一类从原始数据中分离出来，删除第一类数据后，再分离形成第二类，反复循环下去，我们会发现其计算速度非常快，但是不满足使用的准确度要求，这种算法十分适用于准确度要求不是十分严格的数据集的计算。针对其准确度不足的情况，我们结合使用了加权的方法来确定类中心，以此来提升其稳定性与典型程度，这对于聚类的稳定性、延伸性以及时效性都是十分有利的。　　1.1 概念定义　　1.r-邻域：其中心是某一个数据点，半径用小写字母r表示。　　2.典型样本p：其定义就是如果样本集A内部数据的r-邻域里存在有最基本的Minpts（密度阀值）个数据，那么该样本就叫做典型样本。　　3.典型点C：p中全部数据的平均值为典型点，　　其中p中样本的数量用|p|表示。　　4.类中心：即样本中全部数值的平均值。　　1.2 部分优先算法的设计案例　　1.选择某一个数据集，然后随机抽取其中的一个样本A，确定A典型与否。任取样本中的某一个初始值，设置好固定的r与MinDts。然后以该点作为圆心，若Minpts的数值比r-邻域内的数据量小，那么就可以确定样本A具有代表性；　　2.如果A具有很好的代表性，即确定其典型性，那么我们可以利用公式（1）求解出C1，其中C1是样本的典型点，也就是样本的中心；　　3.如果A不具有代表性，即不具典型性质，那么可以重新进行第一个环节，一直到发现典型样本为止；　　4.样本的中心聚类用C1表示，利用公式　　求解出C1与样本A中各对象的间距；　　5.假如C1与指定对象xi两者的间距没有大于或等于，，那么我们将此对象合并进A内，反之，获取C1和其他对象Xi+l两两之间的间距，完成A内包含的全部对象。　　该算法的流程图见图1：　　1.3 PPA的优势　　1.旨在有效加强典型范例和相应的典型点的计算速度，此算法放弃选取数据集全部内容而是借助于随机挑选的方式从而获得典型样本，与此同时典型点的分析过程仅出现1次。　　2.旨在增强典型点的代表水平，增加r-邻域中的数据密度，此计算方法制定典型样本数值的平均数为典型点，另一方面此点也能够被当作聚类中心。　　3.旨在下调旧有数据集的繁琐程度，此算法在完成1个类之后，会把此类的数值从旧有合集内删除以避免重复。　　面对数值的排列PPA并不具备敏感性，这就会使PPA面向球形以及凸形集合时的分析速度更快。与此同时，PPA在样本平均数值处获得典型样本，所以在处理异常数据情况上相对更为敏感，评估异常点相对更为准确。PPA于聚类环节精简了旧有的合集，大幅度下调了旧有合集的繁琐性，因此我们不难发现其于功效上具备较大优势。PPA的分析能力、输入数据的敏感程度、面向异常数据的敏感程度、察觉聚类形状等方面和K-means clustering algorithm、DBSCANclustering algorithm. COBWEB clustering algorithm_FCM clustering algorithm、单连接聚类算法、CLIQUEclustering algorithm. CUBE clustering algorithm等模型开展比对，得出的相关结论详情见表1。　　2 面向大型数据集的PPA的聚类融合　　2.1 聚类融合基本思想　　聚类融合（clustering ensemble，CE）旨在于消除单词聚类（wo