聚类.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类,聚类分析,聚类分析法,聚类算法,分形艺术照,层次聚类,柏萌,数据可视化,kmeans聚类算法

一特征量类型 由于分类对象或目的的不同,对象的特征数值化结果有下述三中类型: 物理量:直接反映特征的实际物理量或几何意义,如重量、速度、长度等。计算机进行处理分析前需要对这些连续量离散化。 次序量:特征在数值化时,按某中规则确定特征的等级,其只反映次序关系。次已为离散量,如产品的等级、人的学识、技能的等级、病症的级或期。 名义量:有些特征是非数值的,如男性与女性、事物的状态、种类等,为便于分析而将它们数值化。这些特征的数值指标既无数量含义,也无次序关系,只是用数字代表各种状态。 二类的定义 在研究聚类算法之前,首先给出类的定义,关于类的定义有如下几个方式,它们分别适于不同的类内模式分布情况。为便于定义,我们将模式的特征矢量作为集合中的元素,两个模式相似性测度只取距离而论,对于相似测度、匹配测度也可以类似定义。 定义1 集合S中任两个元素X1,X2的距离d12有 d12=h 其中h为给定的阈值,称S对于阈值h组成一类。 定义2 若将集合S任意分两类S1,S2,这两类间的距离D(S1,S2)满足 D(S1,S2)=h 则称S对于阈值h组成一类。 由上述定义可以看出,类的划分具有人为规定性,这反映在定义的选取及参数h,r的选择上。一个分类结果的优劣最后只能根据实际来评价,因此较多的利用研究对象的知识才能选择适当的类的定义,从而使分类结果更符合实际。 三聚类的技术方案 聚类分析有许多具体的算法,有的比较简单,有的相对复杂和完善,从算法的基本册略上看,可以分为如下三种方法,其他方法具有这三种方法的某些特点。 根据相似性阈值和最小距离原则的简单聚类方法 针对具体问题确定相似性阈值,将模式到各聚类中心间的距离与阈值比较,都大于阈值时该模式就做为另一类的类心,小于阈值时按最小距离原则将其分化到某一类中。这类算法运行中模式的类别及类的中心一旦确定将不会改变。 按最小距离原则不断进行两类合并的方法 首先视各模式自成一类,然后将距离最小的合并成一类,不断的重复这个过程,直到成为两类为止。这类算法运行中,类心不断的修正,但模式类别一旦指定后就不在改变,就是说模式一旦划为一类后旧不在被分化开。这类方法成为谱系聚类法。 依据准则函数动态聚类法 设定一些分类的控制参数,定义一个能表征聚类过程或结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程。算法运行中,类心不断的修正,各模式的类别的指定也不断地更改。这类方法有C—均值法、ISODATA法。 聚类分析的研究工作可以分为两大类:一类是一般聚类方法和算法的研究,包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等;另一类是研究不同类型领域的聚类,包括文本聚类、web日志信息的聚类、声音和特征识别、生物数据的聚类、DNA数据的聚类。 文本聚类的一般过程,主要包括:1。文本特征的建立;2。特征提取,缩减特征集的大小; 文本聚类算法(包括划分的方法和层次的方法);4。评价聚类结果的质量等步骤,并指出目前文本聚类的困难所在。 聚类的研究现状与发展趋势 聚类分析的研究工作可以分为两大类:一类是一般聚类方法和算法的研究,另一类是研究不同类型领域的聚类。 一类是一般聚类方法和算法的研究是针对结构化的数据,可分为一下几类; 划分方法:划分方法是将数据集划分成k个簇(一个或多个相关联的数据元素组成的集合,也称之为“类”),且每个簇至少包含一个数据元素。每个数据元素可以属于多个簇或仅属于一个簇。给定要构建的划分数k,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,尝试通过对象在划分移动来改变划分。一个好的划分一般准则是:在同一个簇中的对象之间尽可能的“接近”或相关,而不同簇中的对象之间尽可能“远离”或不同。此外,还有许多划分质量的准则。 为了达到全局最优,基于划分的聚类要求穷举所有可能的划分。实际上,绝大多数应用采用了以下两个比较的启发式方法: k平均算法,在该算法中,每个簇用该簇中对象的平均值来表示。 k中心点算法,在该算法中,每个簇用接近簇中心的一个对象来表示;这些启发式聚类方法对在中小规模的数据库中发现球状簇很适用。 为了对大规模的数据进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。 2)层次的方法:层次的方法最终构造出一棵生成树,树的一个结点表示一个簇,树根是包含了所有元素的簇,树叶是仅包含一个数据元素的簇,中间结点包含若干数据元素,每一个非叶结点是两个子结点合并而成,且是由父结点分裂而来。层次的聚类方法可以进一步分为凝聚和分裂的层次聚类。凝聚的方法,首先将每个数据元素作为单独的一个聚簇,然后相继的合并相近的数据元素或簇,直到所有的簇合并为一个簇或达到一个终止条件。分裂的方法,首先将

文档评论(0)

zhiminwei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档