- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章多元正态分布
1.在数据处理时,为什么通常要进行标准化处理?
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化。
(1)0-1标准化(0-1 normalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
(2)Z-score 标准化(zero-mean normalization)
也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最为常用的标准化方法,其转化函数为:
?
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
2、欧氏距离与马氏距离的优缺点是什么?
欧氏距离(Euclidean distance)也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。(每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。它是一种有效的计算两个未知样本集的相似度的方法。对于一个均值为μ,协方差矩阵为Σ的多变量向量,样本与总体的马氏距离为(dm)^2=(x-μ)Σ^(-1)(x-μ)。
在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。夸大了变化微小的变量的作用。 , H1: (n=9 p=5)
检验统计量/(n-1)
服从P,n-1的分布
统计量实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1),这个值越大,相等的可能性越小,备择假设成立时,有变大的趋势,所以拒绝域选择值较大的右侧部分,也可以转变为F统计量
零假设的拒绝区域 {(n-p)/[(n-1)*p]}*
1/10* F5,4(5)
μ0=( 6212.01 32.87 2972 9.5 15.78)’
样本均值(4208.78 35.12 1965.89 12.21 27.79)’
(样本均值-μ0)’=(-2003.23 2.25 -1006.11 2.71 12.01)
协方差矩阵(降维——因子分析——抽取)
Inter-Item Covariance Matrix 人均GDP(元) 三产比重(%) 人均消费(元) 人口增长(%) 文盲半文盲(%) 人均GDP(元) 1020190.840 582.460 331693.531 -599.784 -6356.325 三产比重(%) 582.460 19.480 -105.464 6.625 43.697 人均消费(元) 331693.531 -105.464 125364.321 -213.634 -3130.038 人口增长(%) -599.784 6.625 -213.634 6.099 25.410 文盲半文盲(%) -6356.325 43.697 -3130.038 25.410 196.884 -0.000440368 -6.09781E-05 0-0.000625893 -00.207023949 -0.000210374 -0.0237044 -0 -6.0978E-05 -0.000210374 0-0.0105019 0.003047474 0.002799208 -0.023704352 -0.010501881 0-0.181
文档评论(0)