商务数据挖掘介绍(教授制作)ln9.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
商务数据挖掘介绍(教授制作)ln9

基于距离的方法进行聚类只能发现球状类,当类的形状是任意的时候怎么识别? 下面介绍其中一种常用的算法: 3.4 基于密度的方法 (density-based method) 主要有DBSCAN,OPTICS法 思想: 只要临近区域的密度超过一定的阀值,就继续聚类 特点: 可以过滤噪声和孤立点outlier,发现任意形状的类 3.5 基于网格的方法 (grid-based method) 把样本空间量化为有限数目的单元,形成一个网络结构,聚类操作都在这个网格结构(即量化空间)上进行 3.6 基于模型的方法 (model-based method) 为每个类假定一个模型,寻找数据对给定模型的最佳拟合。 此不详述,有兴趣可以参考《DataMing Concepts and Techniques》即《数据挖掘概念于技术》Jiawei Han Micheline Kamber机械工业出版社 4 不稳定的聚类方法 受所选择变量的影响 如果去掉或者增加一些变量,结果会很不同.因此,聚类之前一定要明确目标,选择有意义的变量。 变量之间的相关性也会影响聚类结果,因此可以先用主成分或因子分析法把众多变量压缩为若干个相互独立的并包含大部分信息的指标,然后再进行聚类。 4 不稳定的聚类方法 输入参数凭主观导致难以控制聚类的质量 很多聚类算法要求输入一定的参数,如希望产生的类的数目,使得聚类的质量难以控制,尤其是对于高维的,没有先验信息的庞大数据。 首先要明确聚类的目的,就是要使各个类之间的距离尽可能远,类中的距离尽可能近,聚类算法可以根据研究目的确定类的数目,但分类的结果要有令人信服的解释。 在实际操作中,更多的是凭经验来确定类的数目,测试不同类数的聚类效果,直到选择较理想的分类。 4 不稳定的聚类方法 算法的选择没有绝对 当聚类结果被用作描述或探查工具时,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。 4 不稳定的聚类方法 聚类分析中权重的确定 当各指标重要性不同的时候,需要根据需要调整权重。如加权欧式距离,权重可以用专家法确定。 * 关于聚类:聚类应用领域 营销: 发现客户集群并进行直销和重组 天文: 发现相似恒星群以及星系群 地震研究: 观测到的地震震源应聚集在大陆断层带 基因分析: 发现具有相似表达式的基因群 … * 关于聚类:评价 手动检查 在已有的类别上判断聚类结果 聚类质量测度 距离测度 聚类内高相似性,聚类间低相似性 关于聚类:如何作得好 作为探索性数据分析方法,用户需要选择举例测度、分组算法等,如果不了解数据或者对其意义没有理论上的了解就很难作出恰当的选择。 除此之外,对于你的聚类还没有多少诊断手段来告诉你聚类的好坏。 关于聚类:数据 如果数据有清晰的聚类结构,非常简单的方法,例如基于最重要变量或构造变量(如主成分)的散点图就可足够把数据聚合成类。如果数据没有这种结构,很可能花费了大量的时间和精力,精心构建的几种分析会给你这儿冲突那儿符合的一些结果来。 关于聚类 作为一种探索性技术,Everitt (1993)评价到:“聚类方法基本上是用于产生一些假设而不是检验假设”。 据说有多少作聚类分析的人就有多少聚类方法,其实这还说少了。应该说聚类方法比作聚类分析的人多无穷多。 * * * 聚类分析 西南财经大学 统计学院 李保坤老师 * 本节讲课提纲 分类和聚类 聚类分析原理介绍 主要聚类算法的分类 不稳定的聚类方法 关于聚类 * 1 分类和聚类 分类: 有约束学习方法  从以前分好类的观测记录学习到一种方法,然后用这种方法去预测观测记录的类别 * 1 分类和聚类 聚类:无约束学习  从没有分类的观测数据里给出 “自然的”分组(或聚类)。在同一个聚类内对象之间具有较高的相似度,不同聚类类之间的对象差别较大。 2.聚类分析原理介绍 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 2.聚类分析原理介绍 聚类方法的目的是寻找数据中: 潜在的“自然分组”结构 感兴趣的“关系” 2.聚类分析原理介绍 相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论) 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 此不详述,有兴趣可参考《应用多元分析》(第二版)王学民 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离 这里不详细介绍这种聚类度量方法 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。 点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。 当然还有一些和距

文档评论(0)

sandaolingcrh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档