- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章多元正态分布
1.在数据处理时,为什么通常要进行标准化处理?
数据的标准化 normalization )是将数据按比例缩放,使之落入一个小的特
定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将
其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其
中最典型的就是0-1 标准化和 Z 标准化。
1)0-1 标准化(0-1 normalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函
数如下:
其中 max 为样本数据的最大值,min 为样本数据的最小值。这种方法有一个
缺陷就是当有新数据加入时,可能导致 max 和 min 的变化,需要重新定义。
2 )Z-score 标准化(zero-mean normalization)
也叫标准化,经过处理的数据符合标准正态分布,即均值为 0 ,标准差为 1,
也是 SPSS 中最为常用的标准化方法,其转化函数为:
其中μ为所有样本数据的均值,σ 为所有样本数据的标准差。
2 、欧氏距离与马氏距离的优缺点是什么?
欧氏距离 Euclidean distance )也称欧几里得度量、欧几里得度量,是一个
通常采用的距离定义,它是在 m 维空间中两个点之间的真实距离。在二维和三
维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。(每个坐标对欧氏
距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,
在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标
有较小的权系数,这就产生了各种距离。当各个分量为不同性质的量时,“距离”
的大小与指标的单位有关。它将样品的不同属性(即各指标或各变量)之间的差
别等同看待,这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的
影响。
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯提出的,表
示数据的协方差距离。为两个服从同一分布并且其协方差矩阵为Σ的随机变量与
的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果
协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。它是一种有效的计算两
个未知样本集的相似度的方法。对于一个均值为μ,协方差矩阵为Σ的多变量向
量,样本与总体的马氏距离为(dm)^2=(x- μ) Σ^(-1)(x- μ) 。
在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定
的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。(它
考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的
信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量
尺度);由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间
的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并
不总是能顺利计算出。
3、当变量X1 和 X2 方向上的变差相等,且与互相独立时,采用欧氏距离与统计
距离是否一致?
统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各
变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的
单位无关。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则
马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
第二章均值向量和协方差阵的检验
3、多元均值检验,从题意知道,容量为 9 的样本 ,总体协方差未知
假设 H0 : 0 , H1 : 0 (n=9 p=5)
检验统计量/(n-1)
2 1 服从 P ,n-1 的T 2 分布
T n(X ) S (X )
0 0
统计量T 2 实际上是样本均值与已知总体均值之间的马氏距离再乘以 n* n-1 ),这
个值越大,相等的可能性越小,备择假设成立时,T 2 有变大的趋势,所以拒绝
域选择T 2 值较大的右侧部分,也
您可能关注的文档
最近下载
- 【高分刷题题库】价格鉴证师《价格鉴证案例分析》历年真题详解历年真题2019年价格鉴证师《价格鉴证案例分析》真题及详解案例分析题.pdf VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测物理含答案.doc VIP
- 《淘宝金融合作方案》课件.ppt VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测英语含答案.doc VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测数学含答案.doc VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测生物含答案.doc VIP
- 小班数学活动串木珠.pptx VIP
- 天一大联考河南省2025-2026学年(上)高二年级秋季检测生物+答案.pdf VIP
- PLC应用技术 第3版 项目五 自动送料装车控制.ppt VIP
- DBJ50_T-037-2017 烧结页岩多孔砖和空心砖砌体结构技术标准.docx VIP
原创力文档


文档评论(0)