聚类方法(Clustering) 周源2015.12.06 .pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类方法(Clustering) 周源2015.12.06 .ppt

聚类方法(Clustering) 周源 2010.12.06 什么是聚类 聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 聚类分析 对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类, 当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 聚类的应用领域 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 …… 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究 有贡献的研究领域 数据挖掘 聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等 统计学 主要集中在基于距离的聚类分析,发现球状类 机器学习 无指导学习(聚类不依赖预先定义的类,不等同于分类) 空间数据技术 生物学 市场营销学 聚类分析原理介绍 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类方法的目的是寻找数据中: 潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship 聚类分析原理介绍 什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢? 聚类分析原理介绍 分成四组 每组里花色相同 组与组之间花色相异 聚类分析原理介绍 分成四组 符号相同的牌为一组 聚类分析原理介绍 分成两组 颜色相同的牌为一组 聚类分析原理介绍 本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的(两个状态具有同等价值和相同的权重,例如性别的两个状态:男和女),没有什么不同。 相似性Similar的度量(统计学角度) 距离Q型聚类 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考《应用多元分析》(第二版)王学民 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离 这里不详细介绍这种聚类度量方法 聚类分析原理介绍 变量按测量尺度(Measurement Level)分类 间隔(Interval)尺度变量 连续变量,如长度、重量、速度、温度等 有序(Ordinal)尺度变量 等级变量,不可加,但可比,如一等、二等、三等奖学金 名义(Nominal)尺度变量 类别变量,不可加也不可比,如性别、职业等 聚类分析原理介绍 当对象是同时被各种类型的变量描述时,怎样描述对象之间的相异度呢? 一种可取的办法是把所有变量一起处理,将不同类型的变量组合在单个相异矩阵中,把所有有意义的变量转换到【0,1】的区间上,只进行一次聚类分析。详见参考书 主要聚类算法的分类 划分方法(partitioning method) 层次的方法(也称系统聚类法)(hierarchical method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的聚类方法(model-based method) 聚类高维数据 基于约束的聚类分析 离群点分析 其中,前两种算法是利用统计学定义的距离进行度量 划分方法 1 典型的划分方法:k均值和k中心点 2 大型数据库的划分方法:从k中心点到CLARANS 思想: 随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。 划分方法 特点: k事先定好 创建一个初始划分,再采用迭代的重定位技术 不必确定距离矩阵 比系统聚类法运算量要小,适用于处理庞大的样本数据 适用于发现球状类 缺陷: 不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,容

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档