chap8_聚类精编.ppt

Clustering Analysis (聚类分析) 钟敏娟 江西财经大学 数据挖掘技术讲座之—— 提纲 聚类概述 基于划分的聚类算法介绍 基于层次的聚类算法 基于密度的聚类算法 基于原型的聚类算法 聚类介绍 聚类的定义 聚类分析的应用 聚类分析原理介绍 不同的聚类类型 聚类算法性能评价 什么是聚类 简单地描述,聚类(Clustering)是将数据集划分为若干相似对象组成的多个组(group)或簇(cluster)的过程,使得同一组中对象间的相似度最大化,不同组中对象间的相似度最小化。或者说一个簇(cluster)就是由彼此相似的一组对象所构成的集合,不同簇中的对象通常不相似或相似度很低。 一个具有清晰簇结构的数据集 提出一个算法来寻找该例中的簇结构 分类 vs. 聚类 分类:有监督的学习 类别事先人工定义好,并且是学习算法的输入一部分; 聚类:无监督的学习 簇在没有人工输入的情况下从数据推理而得; 很多因素会影响聚类的输出结果:簇的个数、相似度计算方法、文档的表示方式,等等 聚类介绍 文本聚类的定义 聚类分析的应用 聚类分析原理的介绍 不同的聚类类型 聚类算法性能评价 聚类分析正在蓬勃发展,广泛应用于一些探索性领域,如统计学与模式分析,金融分析,市场营销,决策支持,信息检索,WEB挖掘,网络安全,图象处理,地质勘探、城市规划,土地使用、空间数据分析,生物学,天文学,心理学,考古学等。 聚类分析无处不在 谁经常光顾商店,谁买什么东西,买多少? 按购物卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样) 为什么这样分类? 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。 聚类分析无处不在 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 聚类分析无处不在 谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透支服务! 贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 聚类的应用领域 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 …… 万维网 对WEB上的文档进行分类 对WEB日志的数据进行聚类,以发现相同的用户访问模式 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究 万维望—搜索结果的聚类:更好地浏览 万维望—全局浏览: Yahoo 聚类介绍 文本聚类的定义 聚类分析的应用 聚类分析原理的介绍 聚类方法的类型 聚类算法性能评价 聚类分析原理介绍 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类方法的目的是寻找数据中: 潜在的自然分组结构 感兴趣的关系 聚类分析原理介绍 什么是自然分组结构 ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢? 聚类分析原理介绍 分成四组 每组里花色相同 组与组之间花色相异 花色相同的牌为一副 聚类分析原理介绍 分成四组 符号相同的牌为一组 符号相同的的牌 聚类分析原理介绍 分成两组 颜色相同的牌为一组 颜色相同的配对 聚类分析原理介绍 这个例子告诉我们: 聚类的结果不是唯一的 类(簇)的概念可能是模糊的 大配对和小配对 聚类介绍 文本聚类的定义 聚类分析的应用 聚类分析原理的介绍 不同的聚类类型 聚类算法性能评价 不同的聚类类型 层次的与划分的 一个聚类方法产生簇(cluster)的集合; 不同类型的聚类之间产生簇的集合是嵌套的,还是非嵌套的;或者,是层次的还是划分的; 划分的聚类方法,将数据对象划分到非重叠的子集(簇)中,使得每个对象属于唯一的一个子集; 层次的聚类方法,产生一个嵌套的簇的集合,它们可组织为一棵层次树; 划分聚类 原始点 层次聚类 传统的层次聚类 非传统的层次聚类 非传统的树图 传统的树图 互斥 vs 非互斥 在非互斥的聚类中,一个点可能属于多个不同的簇。 互斥的聚类中,每个对象都指派到单个簇。 可以表示多个类

文档评论(0)

1亿VIP精品文档

相关文档