网站大量收购独家精品文档,联系QQ:2885784924

模式识别课件--数据聚类精选.ppt

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 数据聚类 主要内容 3.1 引言 3.2 相似性度量 3.3 聚类准则 3.4 基于试探的两种聚类算法 3.5 系统聚类法 3.6 动态聚类 3.7 聚类评价 3.1 引言 聚类:将数据分组成为多个类别,在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 根据各个待分类的模式特征相似程度进行分类,相似的归为一类,不相似的作为另一类。 聚类应用 聚类应用 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 谁经常光顾商店,谁买什么东西,买多少? 按照卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征 聚类应用 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 聚类应用 谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透支服务! 商场的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 聚类应用 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析 生物学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究 聚类分析原理 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类分析原理 聚类方法的目的是寻找数据中: 潜在的自然分组结构 感兴趣的关系 聚类分析原理 什么是自然分组结构? 有16张牌,如何将他们分组呢? 聚类分析原理 分成四组:每组里花色相同,组与组之间花色相异 聚类分析原理 分成四组,符号相同的牌为一组 聚类分析原理 分成两组,颜色相同的牌为一组 聚类分析原理 分组的意义在于我们怎么定义并度量“相似性” 因此衍生出一系列度量相似性的算法 聚类分析原理 相似性的度量(统计学角度) 距离Q型聚类(主要讨论) 主要用于对样本分类 常用的距离有: 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,可参考《应用多元分析》(第二版)王学民 聚类分析原理 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形,如1-rij定义距离 聚类分析原理 变量按测量尺度分类 间隔尺度变量 连续变量,如长度、重量、速度、温度等 有序尺度变量 等级变量,不可加,但可比,如一等、二等、三等奖学金 名义尺度变量 类别变量,不可加也不可比,如性别、职业等 3.2 相似性度量 相似性度量 相似性度量 距离相似性度量 角度相似性度量 距离相似性度量 模式样本向量与之间的欧氏距离定义为: 若距离阈值ds选择过大,则全部样本被视作一个唯一类型;若ds选取过小,则可能造成每个样本都单独构成一个类型 距离相似性度量 距离相似性度量 特征选取不当使聚类无效 特征选取不足引起误分类 模式特征坐标单位的选取也会强烈地影响聚类结果 距离相似性度量 特征选取不当使聚类无效 距离相似性度量 特征选取不足引起误分类 距离相似性度量 解决尺度问题——标准化 解决尺度问题 角度相似性度量 样本与之间的角度相似性度量定义为它们之间夹角的余弦 3.3 聚类准则 相似性度量 → 集合与集合的相似性 相似性准则 → 分类效果好坏的评价准则 聚类准则: 试探法 定义一种相似性度量的阈值 聚类准则函数法 聚类准则是反映类别间相似性或分离性的函数 误差平方和准则(最常用的) 加权平均平方距离和准则 误差平方和准则 假定有混合样本X={x1, x2, …, xn} 采用某种相似性度量,X被聚合成c个分离开的子集X1, X2, …, Xc。每个子集是一个类型,它们分别包含n1, n2, …, nc个样本 为了衡量类的质量,采用误差平方和Jc聚类准则函数,定义为: 误差平方和准则 误差平方和准则适用于各类样本比较密集且样本数目悬殊不大的样本分布 误差平方和准则 加权平均平方距离和准则 定义加权平均平方距离和准则: 式中:Sj*是类内样本间平均平方距离 加权平均平方距离和准则 3.4 基于试探的两种聚类算法 采用最近邻规则的聚类算法 最大最小距离聚类算法

文档评论(0)

tt435678 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档