- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计分析方法 主要内容 主成分分析 因子分析 判别分析 聚类分析 主成分分析 主要思想: 减少指标个数,将多个指标组合形成几个较少的综合指标 希望得到的综合指标之间互不相关 希望综合之后能绝大部分的保留原有的信息 主成分分析 设p维随机变量 的协方差矩阵为 由高代的知识有,必存在正交矩阵 ,使 其中 为特征值,其对应的特征向量为 的对应列 。 主成分分析 作变换 的协方差矩阵为 说明 的各个分量之间是互不相关的,且对 的第i个分量的方差为 主成分分析 是对 作的正交变换,是可逆的,因此他们包含的信息也是相等的。 随机变量包含的信息由方差大小来衡量,因此 衡量总信息的多少 主成分分析 称 为 的第j个主成分, 为主成 分 的贡献率,称 为 的累计贡献率。 主成分分析 实际一般从贡献率大的主成分开始选择,依次选择直到累计贡献率达到85%以上,当然也可以根据自己的选择和要求来确定最低的累计贡献率。 第i个主成分实际上是p个原始变量的线性组合,线性组合的权重是正交矩阵 的第i列的对应元素。 因 子 分 析 模型形式为 因 子 分 析 假设 有 因 子 分 析 不妨假设 记 其中 说明公共因子对 的影响,而 说明特殊因子的影响。 记 说明公共因子 对 的影响,是度量这个公共因子作用的重要尺度。 因 子 分 析 矩阵A的统计意义如下: 因 子 分 析 假设已知 记 可以证明 因 子 分 析 在实际中,只知道样本的协方差矩阵 对协方差矩阵做谱分解 其中 因 子 分 析 先取第一个特征值和相应特征向量,检查 是否接近于对角矩阵,如果接近,则表明公共因子只有一个,剩下的都是特殊因子的影响。如果不接近对角矩阵,那么考虑取第二个特征值和相应特征向量,检查 因 子 分 析 如何判定对角矩阵,可以设定一个很小的值,比如0 .001,如果矩阵的非对角元都比它小,则可以近似认为该矩阵是一个对角阵 如果最后满足条件为 则认为有k个公共因子。 主成分和因子分析的比较 它们的目的是相同的。 选择标准不一样,主成分分析是让剩余方差的总和比较小,而因子分析是让剩余的协方差矩阵近似为对角阵。 如果能得到两者的统一最好。 在很多统计软件中没有单独列出主成分分析的内容,而是包括在因子分析中。 判 别 分 析 有G个总体,每个总体中的个体都含有p项指标,各总体的分布函数分别为: 对给定的一个属于未知类属的个体,希望由它的p 个指标的观测值来判别它的类属。 判 别 分 析 距离判别 Bayes(贝叶斯)判别 Fisher(费歇)判别 距 离 判 别 以简单的两总体来说明问题。 设有两个p维总体A1、A2,它们分别服从 现有一个来自二总体之一的一个个体 要判断它来自哪个总体???? 距 离 判 别 马氏距离:个体到总体的距离为 距离判别的思想即求出马氏距离之后,看哪个值小就判定此个体属于哪个总体。但有误差,因此一般只有两个总体的均值之间有显著性差异的时候才使用距离判别。 推广到多个总体时思想是一样的,也可以推广到非正态总体,只要二阶矩存在就可以。 实际问题中的距离判别问题 实际问题中,各个总体的均值和协方差矩阵都是未知的。 需要先从各个总体中抽出一些样本,根据样本来估计各个总体的均值和相同的协方差矩阵,然后以这些估计来计算相应的马氏距离。 实际中不是比较他们的距离,而是根据总体的性质确定出两个总体的接受域。 如果各个总体的方差不相等怎么办?? Bayes 判 别 在各个总体的分布密度和先验概率已知的情形下使用。是目前使用最多的判别方法之一。 Bayes 判 别 Bayes 判 别 可以证明Bayes 判 别的划分为如下: 函数 具有明显的概率意义,它表示来自总体 的样品错分到 的平均损失,上式也说明总的平均损失达到最小与每个的平均损失最小是等价的。 Fisher 判 别 假设有k个 p 维总体,Fisher判别的思想为
文档评论(0)