多元统计学问答总结.doc

下载文档

4
0
约1.71千字
约 5页
2018-05-24 发布于浙江
举报
版权申诉
保障服务

多元统计学问答总结.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多元统计学问答总结

几种聚类方法比较类平均比最短距离扩张但比最长距离浓缩类平均比重心法扩张但比离差平方和浓缩太浓缩的方法不够灵敏，太扩张的方法当样本量大时容易失真类平均比相对其它方法比较适中，而且有单调性应用广、效果比较好。重心法和中间距离法不具有单调性系统聚类法(Hierarchical Cluster） a. 计算n个样本两两间距离{dij} b. 构造n个类，每个只包含一个样本 c. 合并最近的两类为一新类 d. 计算当前n-1个类中，两两类之间的距离 e. 如此时类的个数为1，聚类过程停止否则重复步骤c、d、e f. 画聚类图 dendrogram(树状聚类图或谱系聚类图) g. 决定分类个数和类快速聚类法(K-均值聚类,K-Means Cluster) 给定类数k ，确定k个点（SPSS自动选）为“聚类种子” 将所有样本点按与这k个点距离远近分成k 类；再以这k 类的重心为新的“聚类种子”，将所有样本点再重新分类，如此下去，直到收敛；得到最终的k 类。判别分析和聚类分析有何不同？在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。在判别分析中，有已经明确知道类别的“训练样本”，并利用训练样本来建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。判别分析的目的研究各变量在分类中贡献 2、未知类别新观测，判别到哪类判别分析的假设条件每一个判别变量不能是其他判别变量的线性组合；各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数。各判别变量之间具有多元正态分布，即每个变量对于所有其他变量的固定值有正态分布。当违背该假设时，计算的概率将非常的不准确。判别分析的方法距离判别、Bayes判别、 Fisher判别（典则判别）、逐步判别距离判别法的判别准则设有两个总体和，x是一个p维样品，若能定义样品到总体和的距离d（x，）和d（x，），则用如下规则进行判别：若样品x到总体的距离小于到总体的距离，则认为样品x属于总体，反之，则认为样品x属于总体样品x属于总体，若样品x到总体和的距离相等，则让它待判。 Fisher判别的思想 Fisher判别的思想是投影，将k组p维数据投影到某一个方向，使的它们的投影与组之间尽可能地分开。 Bayes判别的思想 Bayes统计的思想是：假定对研究的对象已有一定的认识，常用先验概率分布来描述这种认识，然后我们取得一个样本，用样本来修正已有的认识，得到后验概率分布，各种统计推断都通过后验概率分布来进行。将Bayes统计的思想用于判别分析，就得到Bayes判别。取m个主成分代替p个原始变量方法：按累积贡献率达到一定程度(如70%或80%）先计算样本协方差或样本相关系数的p个特征值的均值λ, 取大于λ的特征值个数m 实践表明用方法1容易取太多m。而用方法2往往取太少m 注意重叠信息问题X1与X2基本一样主成分分析与因子分析的区别 1.因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成；主成分分析只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量。 2.从数学表达式看，因子分析中是把变量表示成各因子的线性组合，而主成分分析则是把主成分表示成各变量的线性组合。 3.主成分分析中不需要假设，因子分析则需要一些假设（各个公共因子之间不相关，特殊因子之间不相关，公共因子和特殊因子之间也不相关）。 4.抽取主因子的方法不仅有主成分法，还有极大似然法等，而主成分只能用主成分提取法。 5.主成分分析中，当协方差矩阵或相关阵的特征值唯一时，主成分是固定的；因子分析中因子不是固定的，可以旋转得到不同的因子。 6.在因子分析中，因子个数需要分析者指定；在主成分分析中，成分的数量是一定的。 7.和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。