聚类分析与判别分析-HEKaiTalk何恺说.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十章 聚类分析与判别分析 聚类分析(cluster analysis) 起源于分类学,在古老的分类学中,人们主要依靠经验和 专业知识来实现分类,很少利用数学工具进行定量的分类,从而使分类的结果不可避免地 具有主观性和随机性,并且不能揭示被分类对象的内在联系和区别。特别是当被分类的 对象受到多个因素或指标影响时,由此做出的分类的可靠性就会更低。随着人类科学技 术的发展,对分类的要求越来越高,千是人们逐渐将数学工具引入分类学中,形成了数值 分类学。之后又将多元分析的技术引入数值分类学,形成了聚类分析。 聚类分析是一种根据研究对象特征对研究问题进行分类的多元分析方法,它主要是 依据样本间相似性的度投标准将数据集自动分成几个群组,而且使同一个群组内的样本 之间相似度尽址高,而不同群组的样本之间相似度尽蜇低的一种方法。 目前,聚类分析已经在各个领域得到广泛应用。在经济领域,对商业区或住宅区进行 聚类,确定自动取款机(ATM) 的设翌地点;通过对消费者行为的研究,对市场进行细分, 确定目标市场;在医学、生物学领域,对各种病症进行分类分析,通过挖掘出的一些骨骼的 形状和大小对生物进行分类,对基因进行分类,以获得对种群的认识;在数据挖掘领域,作 为其他数学算法的预处理步骤,获得数据分布状况,从而集中对特定的类做进一步的研 究等。 判别分析与聚类分析不同,是在已知分组的前提下,根据已经确定分类的对象的某些 观测指标和所属类别来判断未知对象所属类别的一种统计学方法。与聚类分析的不同之 处在于:判别分析法的第一步是要对所研究对象进行分类,然后进一步选择对观测对象能 够进行较全面描述的变扯,进而按照一定的判别准则,建立一个或者多个判别函数,用研 究对象的大量资料确定判别函数中的待定系数,并计算判别指标。对一个未确定分组的 对象只要将其带人判别函数就可以判断其所属分类。在实际中,判别分析在气候分类、衣 业区划、土地类型划分中有着广泛的应用。再如,日常生活中,通过收集网上众多店铺经 营的商品种类、品牌、价格、交易批等数据信息,来分析判别店铺的星级。 第一节 聚类分析方法概述 一、聚类分析的基本思想 我们一般认为,所研究的样本或指标之间存在不同程度的相似性。于是根据一批样 本的多个观测指标,具体找出一些能够度很样本或指标之间相似程度的统计最。以这些 统计措为划分类型的依据,把一些相似程度较大的样本(或指标)聚为一类,关系疏远的 聚合到另一个大的分类单位,重复这个过程,直到把所有样本(或指标)都聚成一类,这样 就可以形成一个由分散到统一的系统。 管理统计学 ( 第二版) •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••• • • • •••••••• • •••••• 266 二、聚类分析方法 聚类分析方法可分为两大类:样品聚类分析(case cluster analysis, 又称 Q 型聚类分 析)和指标聚类分析(variable cluster analysis, 又称 R 型聚类分析)。 Q 型聚类分析:对样品进行分类,没有唯一“正确”的分类方法。 由实际丁作者决定所 需的分类数和分类情况。 R 型聚类分析:对变错进行分类,在每一类中找出有代表性的变拭作为重要变批,利 用少数几个重要变批进一步进行回归分析或 Q 型聚类分析。 具体的聚类方法有以下五种: (一)系统聚类法 基本思想:O 计算 n 个样本两两之间的距离,构造 n 个类,每个只包含一个样本; @合并最近的两类为一个新的类;@计算当前 n - I 个类中,两两之间的距离;@如果此 时类的个数为 1 聚类过程停止,否则继续重复步骤@、@、@。 最后,可根据所研究问题 的实际需要决定分类的个数和类。 (二)快速聚类法 基本思想:给定类数 k,确定 k 个点为“聚类种子”;然后将所有样本点按与这 k 个点 的距离远近分为 k 类;再以这 k 类的重心为新的“聚类种子”,将所有样本点重新分类。 如 此下去,直到收敛得到最终的 K 类。

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档