- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二讲 聚类分析 1 、 什么是聚类分析 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。 聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。 随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类。 于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。 与多元分析的其他方法相比,聚类分析方法较为粗糙,理论上还不够完善,正处于发展阶段。 但是,由于该方法应用方便,分类效果较好,因此越来越为人们所重视。近些年来聚类分析的方法发展较快,内容越来越丰富。 社会经济领域中存在着大量分类问题: 例如:对我国30个省市自治区独立核算工业企业经济效益进行分析。 一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标。 如:百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等, 根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。 又如:若对某些大城市的物价指数进行考察, 而物价指数很多,有农用生产物价指数、服务项目物价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多。 因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。 值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。 2 距离和相似系数 为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个: 一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。 另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。 变量的类型 由于相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。 由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分: 变量的类型分为以下三类: 间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。 有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。 名义尺度:变量度量时既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”,还有性别、职业、产品的型号等。 不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。 研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。 问题转变为矩阵的行与行、列与列向量间的相似关系的讨论 问题转变为矩阵的行与行、列与列的向量间的相似关系的讨论 对样品分类(称为Q-型聚类分析) 对指标分类(称为R-型聚类分析) 1 、 对样品分类(称为Q—型聚类分析)常用的距离和相似系数定义 (1)距离 如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令表示样品 与 的距离。常用的距离有: i)明氏(Minkowski)距离 ii)马氏(Mahalanobis)距离 iii)兰氏(Canberra)距离 iv)斜交叉空间距离 i)明氏(Minkowski)距离 采用明氏距离时要注意: 一定要采用相同量纲的变量。如果各变量的量纲不同,或当各变量的量纲相同但各变量的测量值相差悬殊时,不能直接采用明氏距离。 需要先对数据进行标准化处理,然后再用标准化处理后的数据计算距离。 最常用的标准化处理方法是: 在明氏距离中,最常用的是欧氏距离。 主要优点:是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的相似情况(即它们间的距离)完全同于变换前的情形。 不足之处: 第一、它与各指标的量纲有关 第二、它没有考虑指标之间的相关性 举例说明欧氏距离的明显的不足之处 当改变测量单位时,算出的距离数值不同;再则当数量指标X的各分量代表不同质的东西或者分量
您可能关注的文档
- 2014届高三生物一轮复习专题:必修一3-10ATP的主要来源—细胞呼吸2解读.ppt
- 2011年货币银行学教案解读.ppt
- 2014届高三苏教版生物一轮复习学案第5讲细胞质和细胞器解读.doc
- 2011年秋政府经济学学位考辅导解读.ppt
- 2011年全国MRI医师上岗证解读.doc
- 2014届高三苏教版生物一轮复习学案第20讲染色体变异及应用解读.doc
- 2014届高三新人教版英语一轮总复习2-4Wildlifeprotection解读.ppt
- 2014届高三一轮复习基因在染色体上和伴性遗传教案解读.doc
- 2014届高三一轮复习专题8遗传的基本规律与伴性遗传解读.ppt
- 2014届高三英语单项选择训练(含答案)解读.doc
最近下载
- 船外机_雅马哈维修手册_英文F225F_Fl225F_F250D_Fl250D_F300B_Fl300B_p1-a-p150-anglais-Service Manual-.pdf VIP
- 船外机_雅马哈维修手册_英文F6AMH_6BMH_6Y_8CMH_8CW_8Y Service Manual [en].pdf VIP
- 船外机_雅马哈维修手册_英文F4B-F5A-F6C-(6BV-28197-3M-11)Service Manual-2014.pdf VIP
- 船外机_雅马哈维修手册_英文F9.9-T9.9(LIT-18616-03-03 6AU-28197-1K-11)2007Service Manual.pdf VIP
- 船外机_雅马哈F20C(6AJ-28197-5K-11)英文维修手册.pdf VIP
- 小儿急性咽炎护理查房.pptx
- 乐山市公安局警务辅助人员招聘考试真题2024.docx VIP
- 船外机_雅马哈维修手册_英文F15C-F20B-F20bmh-2006.pdf VIP
- 船外机_雅马哈F9.9JMH(6DR-28197-3S-11)英文维修手册.pdf VIP
- 船外机_雅马哈维修手册_英文F20C-(indo)-4stroke.pdf VIP
文档评论(0)