聚类方法（Clustering）周源2015.12.06 .pptVIP

下载本文档

5
0
约7.9千字
约 46页
2016-09-14 发布于河南
举报
版权申诉

聚类方法（Clustering）周源2015.12.06 .ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类方法（Clustering）周源2015.12.06 .ppt

聚类方法（Clustering）周源2010.12.06 什么是聚类聚类（Clustering）就是将数据分组成为多个类（Cluster）。在同一个类内对象之间具有较高的相似度，不同类之间的对象差别较大。聚类分析对于一个数据，人们既可以对变量（指标）进行分类(相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。比如学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类，当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。聚类的应用领域经济领域：帮助市场分析人员从客户数据库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途，在什么时间，打到那里？对住宅区进行聚类，确定自动提款机ATM的安放位置股票市场板块分析，找出最具活力的板块龙头股企业信用等级分类 …… 生物学领域推导植物和动物的分类；对基因分类，获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤，获得数据分布状况，集中对特定的类做进一步的研究有贡献的研究领域数据挖掘聚类可伸缩性、各种各种复杂形状类的识别，高维聚类等统计学主要集中在基于距离的聚类分析，发现球状类机器学习无指导学习（聚类不依赖预先定义的类，不等同于分类）空间数据技术生物学市场营销学聚类分析原理介绍聚类分析中“类”的特征：聚类所说的类不是事先给定的，而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定聚类方法的目的是寻找数据中：潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship 聚类分析原理介绍什么是自然分组结构Natural grouping ? 我们看看以下的例子：有16张牌如何将他们分为一组一组的牌呢？聚类分析原理介绍分成四组每组里花色相同组与组之间花色相异聚类分析原理介绍分成四组符号相同的牌为一组聚类分析原理介绍分成两组颜色相同的牌为一组聚类分析原理介绍本章要介绍的分类的方法称为聚类分析（cluster analysis）。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的(两个状态具有同等价值和相同的权重，例如性别的两个状态：男和女)，没有什么不同。相似性Similar的度量（统计学角度）距离Q型聚类主要用于对样本分类常用的距离有（只适用于具有间隔尺度变量的聚类）：明考夫斯基距离（包括：绝对距离、欧式距离、切比雪夫距离）兰氏距离马氏距离斜交空间距离此不详述，有兴趣可参考《应用多元分析》（第二版）王学民相似系数R型聚类用于对变量分类，可以用变量之间的相似系数的变形如1－rij定义距离这里不详细介绍这种聚类度量方法聚类分析原理介绍变量按测量尺度（Measurement Level）分类间隔（Interval）尺度变量连续变量，如长度、重量、速度、温度等有序（Ordinal）尺度变量等级变量，不可加，但可比，如一等、二等、三等奖学金名义（Nominal）尺度变量类别变量，不可加也不可比，如性别、职业等聚类分析原理介绍当对象是同时被各种类型的变量描述时，怎样描述对象之间的相异度呢？一种可取的办法是把所有变量一起处理，将不同类型的变量组合在单个相异矩阵中，把所有有意义的变量转换到【0，1】的区间上，只进行一次聚类分析。详见参考书主要聚类算法的分类划分方法（partitioning method）层次的方法（也称系统聚类法）（hierarchical method）基于密度的方法（density-based method）基于网格的方法（grid-based method）基于模型的聚类方法（model-based method）聚类高维数据基于约束的聚类分析离群点分析其中，前两种算法是利用统计学定义的距离进行度量划分方法 1 典型的划分方法：k均值和k中心点 2 大型数据库的划分方法：从k中心点到CLARANS 思想：随机选择k个对象，每个对象初始地代表一个类的平均值或中心，对剩余每个对象，根据其到类中心的距离，被划分到最近的类；然后重新计算每个类的平均值。不断重复这个过程，直到所有的样本都不能再分配为止。划分方法特点： k事先定好创建一个初始划分，再采用迭代的重定位技术不必确定距离矩阵比系统聚类法运算量要小，适用于处理庞大的样本数据适用于发现球状类缺陷：不同的初始值，结果可能不同有些k均值算法的结果与数据输入顺序有关，如在线k均值算法用爬山式技术（hill-climbing）来寻找最优解，容

您可能关注的文档

文档评论（0）

cnsg + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

聚类方法（Clustering）周源2015.12.06 .pptVIP