网站大量收购独家精品文档,联系QQ:2885784924

决策支持系统(DSS):第六章 聚类分析.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 §6.1 引言 §6.2 距离和相似系数 §6.3 系统聚类法 §6.4 动态聚类法 §6.1 引言 什么是聚类 聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 什么是聚类 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 聚类分析无处不在 谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样) 什么情况下需要聚类 为什么这样分类? 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。 聚类分析无处不在 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 聚类分析无处不在 谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 聚类的应用领域 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 …… 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究 有贡献的研究领域 数据挖掘 聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等 统计学 主要集中在基于距离的聚类分析,发现球状类 机器学习 无指导学习(聚类不依赖预先定义的类,不等同于分类) 空间数据技术 生物学 市场营销学 什么情况下需要聚类 以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。 大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等; 聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利用。 聚类分析原理介绍 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类分析原理介绍 聚类方法的目的是寻找数据中: 潜在的自然分组结构a structure of “natural” grouping 感兴趣的关系relationship 聚类分析原理介绍 什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢? 聚类分析原理介绍 分成四组 每组里花色相同 组与组之间花色相异 聚类分析原理介绍 分成四组 符号相同的牌为一组 聚类分析原理介绍 分成两组 颜色相同的牌为一组 聚类分析原理介绍 分成两组 大小程度相近的牌分到一组 聚类分析原理介绍 这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similar 因此衍生出一系列度量相似性的算法 §6.2 距离和相似系数 相似性度量:距离和相似系数。 距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。 样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。 变量的测量尺度 通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。 间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。 名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。 本章主要讨论具有间隔尺度变量的样品聚类分析方法。 距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有 当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和

您可能关注的文档

文档评论(0)

学习让人进步 + 关注
实名认证
内容提供者

活到老,学到老!知识无价!

1亿VIP精品文档

相关文档