- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
层次的方法缺陷: 一旦一个步骤(合并或分裂)完成,就不能被撤销或修正,因此产生了改进的层次聚类方法,如BRICH,BURE,ROCK,Chameleon。详见参考书 划分方法(Partitioning method) 较流行的方法有: 动态聚类法(也称逐步聚类法),如k-均值算法、k-中心点算法 思想: 随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。(图解) 划分方法(Partitioning method) 特点: k事先定好 创建一个初始划分,再采用迭代的重定位技术 不必确定距离矩阵 比系统聚类法运算量要小,适用于处理庞大的样本数据 适用于发现球状类 划分方法(Partitioning method) 缺陷: 不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,容易陷入局部极小值 基于距离的方法进行聚类只能发现球状类,当类的形状是任意的时候怎么识别?(黑板图示) 下面介绍其中一种常用的算法: 基于密度的方法(density-based method) 主要有DBSCAN,OPTICS法 思想: 只要临近区域的密度超过一定的阀值,就继续聚类 特点: 可以过滤噪声和孤立点outlier,发现任意形状的类 基于网格的方法(grid-based method) 把样本空间量化为有限数目的单元,形成一个网络结构,聚类操作都在这个网格结构(即量化空间)上进行 基于模型的方法(model-based method) 为每个类假定一个模型,寻找数据对给定模型的最佳拟合。 此不详述,有兴趣可以参考《DataMing Concepts and Techniques》即《数据挖掘概念于技术》Jiawei Han Micheline Kamber机械工业出版社 不稳定的聚类方法 受所选择变量的影响 如果去掉或者增加一些变量,结果会很不同.因此,聚类之前一定要明确目标,选择有意义的变量。 变量之间的相关性也会影响聚类结果,因此可以先用主成分或因子分析法把众多变量压缩为若干个相互独立的并包含大部分信息的指标,然后再进行聚类。 不稳定的聚类方法 输入参数凭主观导致难以控制聚类的质量 很多聚类算法要求输入一定的参数,如希望产生的类的数目,使得聚类的质量难以控制,尤其是对于高维的,没有先验信息的庞大数据。 首先要明确聚类的目的,就是要使各个类之间的距离尽可能远,类中的距离尽可能近,聚类算法可以根据研究目的确定类的数目,但分类的结果要有令人信服的解释。 在实际操作中,更多的是凭经验来确定类的数目,测试不同类数的聚类效果,直到选择较理想的分类。 不稳定的聚类方法 算法的选择没有绝对 当聚类结果被用作描述或探查工具时,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。 不稳定的聚类方法 聚类分析中权重的确定 当各指标重要性不同的时候,需要根据需要调整权重。如加权欧式距离,权重可以用专家法确定。 案例演示 有一个电信公司的数据,变量为: ID:用户电话号码 Mobile:移动电话通话时间 Fixed:固定电话通话时间 DDD: 长途直拨通话时间 IP: IP电话通话时间 研究目的:挖掘不同人群拨打电话的特征 下面用SAS/Enterprise Miner演示 * Thank you! 聚类方法(Clustering) 主讲内容 聚类方法原理介绍 案例分析(SAS/Enterprise Miner) 推荐参考书目 什么是聚类 聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 什么是聚类 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 聚类分析无处不在 谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样) 什么情况下需要聚类 为什么这样分类? 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。 聚类分析无处不在 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 聚类分析无处不在 谁是银行信用卡的黄
您可能关注的文档
最近下载
- 《静脉曲张疾病》课件.ppt VIP
- 学习贯彻《关于加强党的作风建设论述摘编》PPT:持之以恒推进作风建设常态化长效化,保持党的先进性和纯洁性(附文稿).pptx VIP
- 仙溪志-宋-黄岩孙.pdf VIP
- 小学道德与法治新部编版三年级上册第二单元 学科学 爱科学教案(2025秋).doc
- SL∕T 821-2023 节水规划编制规程.pdf
- 部编版二年级道德与法治上册第8课《我为班级作贡献》精美课件.pptx VIP
- 护士注册体检表-(正式).doc VIP
- 检查检验分级管理制度.docx VIP
- 第4课(牛字旁)课件 2025小学生书法通用版二年级下册.ppt
- 智能世界2035报告.pdf
文档评论(0)