聚类.docVIP

下载本文档

27
0
约 4页
2015-09-09 发布于浙江
举报
版权申诉

聚类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类,聚类分析,聚类分析法,聚类算法,分形艺术照,层次聚类,柏萌,数据可视化,kmeans聚类算法

一特征量类型由于分类对象或目的的不同，对象的特征数值化结果有下述三中类型：物理量：直接反映特征的实际物理量或几何意义，如重量、速度、长度等。计算机进行处理分析前需要对这些连续量离散化。次序量：特征在数值化时，按某中规则确定特征的等级，其只反映次序关系。次已为离散量，如产品的等级、人的学识、技能的等级、病症的级或期。名义量：有些特征是非数值的，如男性与女性、事物的状态、种类等，为便于分析而将它们数值化。这些特征的数值指标既无数量含义，也无次序关系，只是用数字代表各种状态。二类的定义在研究聚类算法之前，首先给出类的定义，关于类的定义有如下几个方式，它们分别适于不同的类内模式分布情况。为便于定义，我们将模式的特征矢量作为集合中的元素，两个模式相似性测度只取距离而论，对于相似测度、匹配测度也可以类似定义。定义1 集合S中任两个元素X1，X2的距离d12有 d12=h 其中h为给定的阈值，称S对于阈值h组成一类。定义2 若将集合S任意分两类S1，S2，这两类间的距离D（S1，S2）满足 D（S1，S2）=h 则称S对于阈值h组成一类。由上述定义可以看出，类的划分具有人为规定性，这反映在定义的选取及参数h，r的选择上。一个分类结果的优劣最后只能根据实际来评价，因此较多的利用研究对象的知识才能选择适当的类的定义，从而使分类结果更符合实际。三聚类的技术方案聚类分析有许多具体的算法，有的比较简单，有的相对复杂和完善，从算法的基本册略上看，可以分为如下三种方法，其他方法具有这三种方法的某些特点。根据相似性阈值和最小距离原则的简单聚类方法针对具体问题确定相似性阈值，将模式到各聚类中心间的距离与阈值比较，都大于阈值时该模式就做为另一类的类心，小于阈值时按最小距离原则将其分化到某一类中。这类算法运行中模式的类别及类的中心一旦确定将不会改变。按最小距离原则不断进行两类合并的方法首先视各模式自成一类，然后将距离最小的合并成一类，不断的重复这个过程，直到成为两类为止。这类算法运行中，类心不断的修正，但模式类别一旦指定后就不在改变，就是说模式一旦划为一类后旧不在被分化开。这类方法成为谱系聚类法。依据准则函数动态聚类法设定一些分类的控制参数，定义一个能表征聚类过程或结果优劣的准则函数，聚类过程就是使准则函数取极值的优化过程。算法运行中，类心不断的修正，各模式的类别的指定也不断地更改。这类方法有C—均值法、ISODATA法。聚类分析的研究工作可以分为两大类：一类是一般聚类方法和算法的研究，包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等；另一类是研究不同类型领域的聚类，包括文本聚类、web日志信息的聚类、声音和特征识别、生物数据的聚类、DNA数据的聚类。文本聚类的一般过程，主要包括：1。文本特征的建立；2。特征提取，缩减特征集的大小；文本聚类算法（包括划分的方法和层次的方法）；4。评价聚类结果的质量等步骤，并指出目前文本聚类的困难所在。聚类的研究现状与发展趋势聚类分析的研究工作可以分为两大类：一类是一般聚类方法和算法的研究，另一类是研究不同类型领域的聚类。一类是一般聚类方法和算法的研究是针对结构化的数据，可分为一下几类；划分方法：划分方法是将数据集划分成k个簇（一个或多个相关联的数据元素组成的集合，也称之为“类”），且每个簇至少包含一个数据元素。每个数据元素可以属于多个簇或仅属于一个簇。给定要构建的划分数k，划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术，尝试通过对象在划分移动来改变划分。一个好的划分一般准则是：在同一个簇中的对象之间尽可能的“接近”或相关，而不同簇中的对象之间尽可能“远离”或不同。此外，还有许多划分质量的准则。为了达到全局最优，基于划分的聚类要求穷举所有可能的划分。实际上，绝大多数应用采用了以下两个比较的启发式方法： k平均算法，在该算法中，每个簇用该簇中对象的平均值来表示。 k中心点算法，在该算法中，每个簇用接近簇中心的一个对象来表示；这些启发式聚类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据进行聚类，以及处理复杂形状的聚类，基于划分的方法需要进一步的扩展。 2)层次的方法：层次的方法最终构造出一棵生成树，树的一个结点表示一个簇，树根是包含了所有元素的簇，树叶是仅包含一个数据元素的簇，中间结点包含若干数据元素，每一个非叶结点是两个子结点合并而成，且是由父结点分裂而来。层次的聚类方法可以进一步分为凝聚和分裂的层次聚类。凝聚的方法，首先将每个数据元素作为单独的一个聚簇，然后相继的合并相近的数据元素或簇，直到所有的簇合并为一个簇或达到一个终止条件。分裂的方法，首先将