c聚类分析优秀讲义.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
c聚类分析优秀讲义

心理统计学 一、基本概念 二、聚类分析的原理 三、层次聚类 四、快速聚类 引言 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物。 聚类分析是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物并认识事物间的相似性(何清98)。 什么是聚类分析 含义:就是将随机现象归类, 将数据分组成为多个类(Cluster),在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 特点: 在事物分类面貌并不清楚,在这一过程中没有任何关于类分的先验知识,没有教师指导,也不知道分成多少类合适的情况 下,用统计学方法找出适当分类。 分类与聚类的区别 分类:用已知类别的样本训练集来设计分类器(监督学习) 聚类(集群):用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习) 聚类分析的作用 1.收集并标记大型样本集是非常耗费人力、物力和时间的工作,而聚类分析能快速对样本集中每个个体粗略的分类,并能够提示样本集的一些内部结规律。 2.在很多实际应用中,样本集的性质、特性或属性会随着时间发生缓慢的变化, 例如,未知的新疾病等。这种性质、特征或属性的变化能够通过聚类分析予以发现, 而判别分析却难以处理此类问题。 3.通过聚类分析,所提取样本集中的一些有用信息对于后续的分类工作提供了 灵活、有效的前期数据处理方法。例如近年来随着人类基因组计划的实施,聚类分析 已成为发掘海量基因信息的分析工具。 聚类分析无处不在 谁经常光顾商店,谁买什么东西,买多少? 商店可以识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 商店会刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样) 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 聚类分析无处不在 谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 聚类的应用领域 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 …… 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究 二、聚类分析原理介绍 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类的类别 测量了n个对 象(样品)的m个变量(指标) : 1.样品聚类,又称Q型聚类: 将n个样品(个案)归类,目的是 找出样品(个案)间的共性。 如探讨学习困难儿童是否有不同亚型 2.指标聚类又称R型聚类: 指将m个指标归类,其目的是选择代表 性指标。例如对韦氏儿童智力量表的11个分测验指标进行归类,选择代表性指标。 聚类分析原理介绍 什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢? 聚类分析原理介绍 分成四组 每组里花色相同 组与组之间花色相异 聚类分析原理介绍 分成四组 符号相同的牌为一组 聚类分析原理介绍 分成两组 颜色相同的牌为一组 这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar 因此衍生出一系列度量相似性的算法 相似性指际 常用的有下 列两种。 1.R型聚类常用的相似性系数包括。 2. Q型聚类常用的相似性系数Q型聚类常用样品之间的距离大小反映相似性 系数,距离越小表明样品之间相似程度越高。常用的距离计算方法有欧式距离(Eu-clidean distance)、绝对距离(Manhattan distance)、明库斯基距离(Minkowski dis-tance)和马氏距离(Mahalanobis distance)。 相似性系数 衡量指标或样品相近程度的指标称为聚类的相似性系数,度量发有两个: Q型聚类 对样本分类,距离越小表明样品之间相似程度越高。 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括:绝对距离、欧式距

文档评论(0)

taotao0b + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档