- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用统计—聚类分析
聚类分析
聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。
??? 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;自然界生物可以分为动物和植物等等。这些就是一些分类。
那么分类根据什么分呢?
一、基本思想: 我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的 统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一 类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
以下我们学习一种常用的分类法称作系统聚类法。
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。
R型聚类分析的主要作用是:
1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
Q型聚类分析的优点是:
1、可以综合利用多个变量的信息对样本进行分类;
2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;
3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。
为了进行聚类分析,首先我们定义样品间的距离。
二、距离
设有n个样品,p个指标,数据矩阵为
? 元素 表示第i个样品的第j个指标。
因每个样品有p个指标,故每个样品可以看成p维空间中的一个点,n个样品就构成p维空间中的n个点。因此,我们可以用距离来度量样品之间接近的程度。
常用的距离
1)明氏(Minkowski)距离。
当 时,为绝对距离;
当 时,为欧氏距离;
当 时,为切比雪夫距离。
当各变量的测量值相差悬殊时,采用明氏距离并不合理,需要先对数据标准化,然后用标准化后的数据计算距离。
明氏距离特别是其中的欧氏距离是人们较为熟悉的,也是使用最多的距离。但明氏距离存在不足之处,主要表现在两个方面:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性,欧氏距离也不例外。
2)马氏距离
设 表示指标的协差阵即:
? 其中 ?
???
如果 存在,则两个样品之间的马氏距离为
???
这里 为样品 的 个指标组成的向量,即原始资料阵的第 行向量。样品 类似。
顺便给出样品 到总体 的马氏距离定义为
???
其中 为总体的均值向量, 为协方差阵。
马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。
3)兰氏距离
?? ????
此距离仅使用于一切 的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。
计算任何两个样品 与 之间的距离 ,其值越小表示两个样品接近程度越大, 值越大表示两个样品接近程度越小。如果把任何两个样品的距离都算出来后,可排成距离阵 :
?????
其中 。 是一个实对称阵,所以只须计算上三角形部分或下三角形部分即可。根据 可对 个点进行分类,距离近的点归为一类,距离远的点归为不同的类。
三、相似系数
1)夹角余弦
将任何两个样品 与 看成 维空间的两个向量,这两个向量的夹角余弦用 表示。则 ?????
当 ,说明两个样品 与 完全相似; 接近1,说明两个样品 与 相似密切; =0,说明 与 完全不一样; 接近0,说明 与 差别大。把所有两两样品的相似系数都算出,可排成相似系数矩阵:
???
其中 。 是一个实对称阵,所以只须计算上三角形部分或下三角形部分,根据 可对 个样品进行分类,把比较相似的样品归为一类,不怎么相似的样品归为不同的类。
2)相关系数
通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第 个样品与第 个样品之间的相关系数定义为:
?????
其中 ????
3)实际上, 就是两个向量 与 的夹角余弦,
4)其中 。若将原始数据标准化,则 ,这时 。把两两样品的相关系数都算出来,可排成样品相关系数矩阵:
????????
其中 ,可根据 可对 个样品进行分类。
第三节? 系统聚类方法
正 如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间 最远样品的距离,与可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距
您可能关注的文档
- 广告设计培训.ppt
- 广州亚运建设项目施工总承包合同_范本.doc
- 广岛之恋 影视作品分析 很详细的.ppt
- 广州光大物业管理公司管理手册.doc
- 广州地区广播收听率调查报告3月份.ppt
- 广州市地下通道施工组织设计方案.docx
- 广州市新开发区办事指引.doc
- 广州市城市规划全过程三维数字支撑体系建设.pptx
- 广州市机电高级技工学校教案.doc
- 广州市民用建筑科研设计院.doc
- 学校德育活动对学生价值观形成的影响教学研究课题报告.docx
- 小学科学课堂中批判性思维的培养研究教学研究课题报告.docx
- 小学阶段家庭教育对学习的影响研究教学研究课题报告.docx
- 初中物理课堂的翻转教学研究教学研究课题报告.docx
- 初中美术教育与学生审美能力提升研究教学研究课题报告.docx
- 初中道德与法治教材使用现状调查分析教学研究课题报告.docx
- 初中道德与法治课程的教学模式创新教学研究课题报告.docx
- 教育政策对教学实践的影响分析教学研究课题报告.docx
- 高中化学实验教学对学生科研素养的影响教学研究课题报告.docx
- 初中生心理健康教育的实施现状与对策教学研究开题报告教学研究课题报告.docx
文档评论(0)