数据挖掘中聚类分析算法及应用探究.docVIP

下载本文档

9
0
约2.73千字
约 6页
2017-07-20 发布于福建
举报
版权申诉

数据挖掘中聚类分析算法及应用探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘中聚类分析算法及应用探究

数据挖掘中聚类分析算法及应用探究　　摘要：聚类分析算法在数据挖掘领域、设备学习领域以及统计学领域等均有着重要的研究和应用意义，同时在实际的应用中也有着广泛的地位。对此，本文详细分析数据挖掘中聚类分析算法及应用。关键词：数据挖掘；聚类分析算法；应用 DOI：10.16640/j.cnki.37-1222/t.2017.11.148 聚类分析算法是一种将给定数据实现集划分为多个类别的过程，同时同一种聚类当中数据的对象有着较高的相似性，不同的聚类之间的数据对象具备较低的相似度。一般情况下，就使用距离来看，聚类的数据之间有着较高的使用特性，能够让数据使用者更快的掌握更多的可实用性数据。对此，探讨数据挖掘中聚类分析算法及应用具备显著意义。 1 聚类分析算法 1.1 数据挖掘对聚类分析算法的主要要求就当前的数据挖掘技术以及数据挖掘技术的应用而言，当前对聚类分析算法的主要要求有以下几点：（1）可拓展性。聚类分析算法必须对大数据、小数据都能够实现有效的计算和划分，大至网络数据，小至企业人数数据等；（2）处理不同类型的数据功能[1]。聚类分析算法必须兼备不同的类型数据处理功能，例如能够处理经济数据也可以处理工程类数据；（3）发现任何关联性的聚类。聚类分析算法不仅能够发现具备类似大小、密度的球状聚类或圆形聚类，还能够发现各种任意形状但是具备一定类似性的聚类；（4）降低用户的输入参数两。用户在输入参数量时必然带有一定的主观性，所以在参数量输入得够多时则整体分析结果也就更加主观化，整体分析结果也就显得越发不准确。对于聚类质量而言，输入参数量的大小有着直接性的影响，所以应当尽可能的降低用户的输入参数量，从而最大程度改进聚类分析算法的分析效果，同时降低用户的分析负担；（5）对干扰数据具备较强处理能力。在实际应用过程中，想要真正展现聚类分析算法的使用能力，就必须最大程度降低干扰数据的影响，借助聚类分析算法对干扰数据给予针对性的处理，促使处理对象当中的质量差尽可能控制到最低[2]；（6）尽可能降低对输入数据顺序的敏感性。衡量聚类分析算法的优劣势最重要指标之一就是对输入数据的顺序是否存在敏感性，如果不存在敏感性，则说明聚类分析算法的使用特性较好，反之则较差；（7）高维问题。聚类分析算法在处理低维数据以及高维数据的过程中都必须具备较好的性能；（8）约束聚类。聚类分析算法能够在特定的条件以及相应的规律之下约束聚类的质量，从而确保聚类之间有着较高的使用价值相似性；（9）高度可用性和可解释性。聚类分析算法应当和特定的解释以及相应的目标之间有着较高的相似性，这也是确保聚类分析算法实际使用能力的直接性表现。 1.2 主要的聚类分析算法在实际的应用过程中，因为数据类型、目的以及要求之间的不同，对聚类分析算法的需求也存在明显的差异，所以在实际的应用过程中应当选择适当的聚类算法，这也是非常重要的。应用多种聚类分析算法使用在同一个数据集当中，能够分析出数据潜在的使用价值以及可买搜狐性的特征，并为进一步的数据挖掘以及探索提供有力基础。典型的聚类分析算法主要包含基础的的密度方法、层次方法、划分方法以及基于网格的方法。划分方式：给予一定具体的数据集，例如其中包含一亿个数据对象，划分的方式就是将数据集划分为多个聚类，例如100个聚类，每一个聚类都应当符合下列的两个条件。首先，每一个聚类至少包含一个数据对象；其次，每一个数据对象只能够属于一个聚类。简单而言，就是一亿个数据对象按照相应的规律被划分在100个聚类当中，同时每一个数据只能够存在在一个聚类当中。但是，在一些模糊划分的方式当中能够适当的放宽限制程度。所构建的聚类应当成为最优化的客观划分，进而促使同一个聚类当中对象的距离最小，不同的聚类之间对象的距离应当尽可能的扩大。聚类的相似度高低一般可以作为衡量划分方法本身质量的直接性标准，有效的划分方式可以促使同一个聚类当中的数据具备较高的相似性，而不同的聚类之间具备最低的相似度，最常用的划分方式主要为K-means和K-medoids算法。划分方式必须具备处理数据集的一次性装入内存功能，从而最大程度的限制在大数据集当中多方面应用。划分方式需要按照用户的需求划分为多个个数据，这也会导致主观判断的因素对聚类质量形成应想，划分的方式只是用某一个固定的规则进行聚类，就会导致聚类的形状不规律，聚类的结果准确率就比较低。层次方式的输出能够为数据对象形成一个聚类树，层次方式分为自上而下、自下而上的分析方式。但是无论是哪一种方式，其都可以获得在不同粒度之上的多层次聚类结构，但是也存在相应的缺陷，例如在分裂以及合并之后，无法再回溯之前，这也缺陷同样也具备相应的积极性，所以在分裂以及合并的过程中，必须要考虑不同选择而导致组合的分裂问题。