聚类分析j可编辑.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚聚类类分分析析法法 ————BBYY 刘刘景景娜娜 SStteepp11 聚聚类类以以及及聚聚类类分分析析简简介介 SStteepp22 聚聚类类分分析析的的种种类类 SStteepp33 聚聚类类分分析析实实例例 聚聚类类以以及及聚聚类类分分析析简简介介 聚类分析的原理 聚类分析的种类 聚类分析的方法 聚类分析的一般使用环境 各种聚类分析软件的优缺点 聚类分析的使用技巧 聚类分析的原理 含含义义 聚类(clustering)是对大量未知标注的数 集,按数 的内在相似性将 数 集划分为多个类别,使类别内的数 相似度较大而类别间的数 相 似度较小,其过程被称为聚类。 聚类是根 “物以类聚”的原理,将本身没有类别的样本 聚集成不同的组,这样的一组数 对象的集合叫做簇,并 且对每一个这样的簇进行描述的过程。 定义 聚类分析是将样品或变量按照它们 性质上的亲疏程度进行分类的多元统 计分析 法。进行聚类分析时,用来 描述物品或变量的亲疏程度通常有两 个途径,一个是把每个样品或变量看 成是多维空间上的一个点,在多维坐 标中,定义点与点,类与类之间的距 离,用点与点间距离来描述作品或变 量之间的亲疏程度;二是计算样品或 变量的相似系数,用相似系数来描述 样品或变量之间的亲疏程度。 种类 (1)系统聚类分析法。是在样品距离的基础上定义类与 类的距离,首先将n个样品 成一类,然后每次将具有最 小距离的两个类合并,合并后再重新计算类与类之间的距 离,再并类,这个过程一直持续到所有的样品都归为一类 为止。这种聚类方法称为系统聚类法。根据并类过程所做 的样品并类过程图称为聚类谱系图。 (2)动态聚类分析法。是将n个样品初步分类,然后根据 分类函数尽可能小的原则,对初步分类进行调整优化,直 到分类合理为止。这种分类方法一般称为动态聚类法,也 称调优法。 (3)模糊聚类分析法。是利用模糊数学中模糊集理论来 处理分类问题的方法,他对经济领域中具有模糊特征的两 态数据或多态数据具有明显的分类效果。 (4)图论聚类分析法。是利用图论中最小支撑树 (MST) 的概念来处理分类问题,是一种独具风格的方法。 聚类分析中样品或变量亲疏程度的测定 1、变量类型与数据变换: 通常变量类型是按照计 尺度、定序尺度、定距尺 度、定比尺度分类。其中,前两者又称为定性资料,后 两者又称为定量资料。在进行聚类分析处理时,样品间 的相似系数和距离有许多不同的定义,这些定义与变量 的类型有着密切的关系,不同类型的变量在定义距离或 相似性测度时具有很大的差异。另外,由于样本数据受 量纲和数量级的影响,在聚类分析处理过程中,首先应 对原始数据矩阵进行变换处理,以便使不同量纲、不同 数量级的数据能放在一起比较。 1)中心化变换 对于一个样本数据,观测p个指标,n个样品的数据资料阵为 2)规格化变换(极差规格变换) 规格化变换是从数据矩阵的每一个变量中找出 其最大值和最小值, 两者之差称为极差,然后从每 一个原始数据中减去该变量中的最小值,再除以极 差就得到规格化数据.规格化后的数据为 进行了规格化变换后的数据特点是,将每列的 最大数据变为1,最小数据变为0,其余数据取值在 0,1之间。 3)标准化变换 标准化变换是对变量的属性进行变换处理,首先对数据进行中心 化然后再除以标准差,即 4)对数变换 对数变换主要是对原始数据取对数。即 对数变换后的数据特点是,可将具有指数 特征的数据结构化为 性数据结构。 2、多维空间的距离 对于p个观测指标,n个样品的样本数据,每个样品有p个变 量,故每个样品都可 看成是p维空间上的一个点,n个样品就 是的过程维空间上的n个点。聚类分析中,对样品进行分类时, 通常采用距离来表示样品之间的亲疏程度,因此需定义样品之 间的距离,即第i个样品与第j个样品之间的距离,记为,所定义 的距离一般满足 下四个条件: 3、距离

文档评论(0)

1亿VIP精品文档

相关文档