- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[数学]现代统计分析--聚类分析
聚类分析 现代统计分析 -------聚类分析 基本内容 聚类分析的基本意义 距离和相似系数 谱系聚类分析(系统聚类法) 聚类分析的基本意义 一、一般分组与分类有如下的局限性 : 1、一般地分类和分组主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性 2、对于多指标、多因素的分类问题一般分析与分类的方法难于解决。 聚类分析的基本思想 根据一批样本的多个观测指标,具体找出一些能够量度样品或指标之间相似程度的统计量,并以这些统计量作为划分类型或分组的依据,将相似度很高的一些样品(指标)分别归类,然后这些归类逐级归并为更大的一类,直到所有样品(指标)聚合完毕。 聚类分析分类 Q型聚类: 是对样品进行分类处理。 R型聚类 : 是对变量(指标)进行分类处理。 聚类分析分类 1、系统聚类方法(逐步的归类方法) 2、模糊聚类方法 (将模糊数学的方法应用于定性变量的分类中) 3、K-均值法 将样品分成指定类的方法 4、有序样本的聚类 按次序的分类 5、分解法(从一类的逐步分解) 6、加入法(样品依次输入的方法) Q型聚类主要作用 可以综合利用多个变量的信息对样本进行分类 分类结果是直观的,聚类谱系图非常清晰的表 现其数值分类的结果 聚类分析所得到的结果比传统分析方法更细致、全面、合理。 距离和相似系数 (一)、样本特性的测量尺度 1、定类尺度 2、定序尺度 3、定距与定比尺度 样品的测量尺度 样本特性的测量尺度 当我们研究现象的分类时,设选用P个指标,N个样品就得如下的n×p的数据矩阵: X11,X12,... X1p X21,X22,... X2p . . . . . . . . Xn1,X n2,... Xnp 样本特性的测量尺度 对样本进行聚类时,我们把样品间的“靠近”程度由某种距离来描述; 对指标之间的靠近程度用相似系数来描述。 距离 在上面的矩阵表达式中,每个样品有P个指标,故可以看成是P维空间上的一个点,n个样品实际上就是p为空间上的n个点,而这些点之间的距离就是聚类的基本依据。 距离 若用dij 表现第i个样品与第j个样品之间的距离,一般地要求其满足如下的条件: 1、dij≧0 对于一切的i,j 2、dij=0 等价于样品i与样品j各个指标相同 3、dij=dji 对于一切的i,j 4、dij≦dik + dkj 对于一切的i,j,k 在聚类分析中有的距离并不满足条件4。 距离的缺点 距离的大小与指标的观测单位有关,有人为的主观性 没有考虑指标之间相关性的大小 距离缺点的处理-观测数据标准化 常见的距离 3、兰氏距离 常见的距离 一般选择欧氏距离作为聚类分析 的基本测量指标 相似系数 相似系数是在对样品的变量(指标)进行聚类时所采用的方法。当考察两个指标之间的相似程度时,用相似系数反映。用Cij表示第i个指标和第j个指标之间的相似系数。Cij的绝对值越大则表示指标i和指标j很相似,反之,二者就越疏远。 相似系数 Cij(1)= 相似系数 在空间的集合描述为:空间上AB与CD的相似性用夹角的余弦来表示。 相似系数 2、相关系数: Cij(2)= 相似系数 相似系数与距离的相互关系可以用下面的公式表达: dij2=1-Cij2 类和类的特征 定义1:T为一个阈值,如果对应任意的 有 定义2:对阈值T,如果对每个 类和类的特征 定义3:对于阈值T,V,如果: 定义4:对于阈值T,若对任意一个 类和类的特征 类的特征描述: 1、均值(或称为G的重心) 2、样本散布阵及协方差阵: 类和类的特征 3、G的直径: 类和类的特征 距离的求法: 1、最短距离法:(小中取小) Dk(p,q)=min{djl︱j∈Gp ,l∈Gq} 来表示Gp 与Gq 之间的距离 2、最长距离法(大中取小法) Dk(p,q)=max{djl︱j∈Gp ,l∈Gq} 类和类的特征 3、重心法: 4、类平均法: 类和类的特征 离差平方和法(略) 谱系聚类分析(系统聚类法) (一)、系统聚类法的基本步骤: 1、计算n个样品两两间的距离{ dij},记为D={ dij} 2、构造n个类,每个类只包括一个样品 3、合并最近的两类为新类 4、计算新类与当前各类的距离,若类的距离等于
您可能关注的文档
- [数学]偏微分基础知识.ppt
- [数学]人教版六年级数学上册第三单元第八课时_比的意义.ppt
- [数学]农村应用数学教案.doc
- [数学]凸轮轮廓曲线的设计.ppt
- [数学]初中数学少教多学案例研究-黄晓学.ppt
- [数学]分式.ppt
- [数学]判别分析3.ppt
- [数学]动态规划5.ppt
- [数学]北京理工大学工科数学分析7-2可分离变量的方程.ppt
- [数学]勾股定理ppt课件.ppt
- 2026年温岭市司法局招录备考题库及1套参考答案详解.docx
- 2026年湖北银行武汉财富管理人员社会招聘备考题库及一套完整答案详解.docx
- 2026年湖北宣恩县事业单位公开选聘工作人员备考题库及答案详解参考.docx
- 2026年温州大学商学院临聘工作人员招聘备考题库含答案详解.docx
- 2026年深圳未来双语学校(龙岗)面向全国招聘优秀在编、非编教师备考题库及一套参考答案详解.docx
- 2026年清华大学无锡应用技术研究院招聘备考题库及完整答案详解1套.docx
- 2026年海口市美兰区美舍嘉苑幼儿园招聘教师岗位备考题库及完整答案详解一套.docx
- 2026年湖北省自然资源资产运营有限公司招聘备考题库及参考答案详解1套.docx
- 2026年温州市生产力促进中心有限公司招聘备考题库及答案详解1套.docx
- 2026年淄川区人民检察院公开招聘聘用制书记员5人备考题库有答案详解.docx
原创力文档


文档评论(0)