商业数据分析·HM.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
商业数据分析·HM

商业数据分析 2015·12·08 聚类 Clusters 4 聚类 1、什么是聚类 Whats clustering Definishion:Clustering is the process of organizing a set of data into groups in such a way that observations within a group are more similar to each other than they are to observations belonging to a different cluster. 聚类:将相似的数据放在一组,不同的数据分开就是聚类。 同样的数据,用不同的聚类方法或针对不同的目的,分类结果不同,如:同一群人,按照性别可以分为男人和女人,按照年龄可以分为年轻人和老年人。 4 聚类 2、聚类是非监督学习 Unsupervised Learning 聚类是著名的非监督学习的方法。 聚类在对数据进行分类之前并不知道数据有多少个类型,会被分成多少个簇,数据没有任何的标签和先验知识,所以是非监督的。 4 聚类 3、聚类的步骤 Steps of Clustering 1. 模式表达 聚类的预处理,如:决定分组组数、使用数据的规模、选择测量的方法等。 2. 模式近邻型度量 选择测量簇之间距离或者近邻性的方法。 3. 分组 决定每个数据点属于哪个组,有些数据可能是模糊的,它对多个组都有一定的隶属程度。 4. 数据抽象 可选步骤,总结分组的现实意义,抽象出数据要表达的内涵,如:病人数据被分成了肺癌和白血病两类。 5. 聚类评价 对输出的聚类结果进行评估,是否符合应用要求。 聚类 4 1 HM Hierarchical Methods 层次聚类 聚类 4 HM 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度; 2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个); 3、重新计算新生成的这个类与各个旧类之间的相似度; 4、重复2和3直到所有样本点都归为一类,结束。 整个聚类过程其实是建立了一棵树,在建立的过程中,可以通过在第二步上设置一个阈值,当最近的两个类的距离大于这个阈值,则认为迭代可以终止。 聚类 4 HM 关键的一步就是第三步,如何判断两个类之间的相似度有很多方法,书上介绍了以下4种: 1、 Single Linkage 取两个类中距离最近的两个样本的距离作为这两个类的距离,也就是说,最近的两个样本之间的距离越小,这两个类之间的相似度就越大。 缺点:容易造成一种叫做 Chaining 的效果,即:两个 簇明明从“大局”上离得比较远,但是由于其中个别的点距离比较近就被合并了,并且这样合并之后 Chaining 效应会进一步扩大,最后会得到比较松散的簇。 聚类 4 HM 2、 Complete Linkage Single Linkage 的反面极端,取两个集合中距离最远的两个点的距离作为两个集合的距离。 缺点:类似的,有时候两个簇即使已经很接近了,但是只要有不配合的点存在,就顽固到底,老死不相合并,也是不太好的办法。 这两种相似度的定义方法的共同问题就是:只考虑了某个有特点的数据,而没有考虑类内数据的整体特点。 聚类 4 HM 3、 Average Linkage 把两个类中的点,两两的距离全部放在一起,求一个平均值,相对也能得到合适一点的结果。 4、Centroid Linkage 找到每个类的几何圆心位置,然后求两两圆心的距离,最近的两个合并。在这种方法中,求距离一般都使用欧氏距离。 这种方法还有一个变种叫做Median Linkage,就是找到每个类的重心位置,然后两两重心求距离。 MATLAB实例——P161-P163 4 我们用之前使用过的酵母菌数据yeast.mat进行聚类实验,分别用single linkage和complete linkage进行计算簇之间的相似性,最后用dendrogram函数把簇画成树状图。 下面打开matlab我们进行HM实战! 聚类 层次聚类的总结 4 这种聚类的方法叫做agglomerative hierarchical clustering,描述起来比较简单,但是计算复杂度比较高,为了寻找距离最近/远和均值,都需要对所有的距离计算个遍。另外从

您可能关注的文档

文档评论(0)

173****7830 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档