- 1、本文档共127页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(2)方差膨胀因子(VIF) 方差膨胀因于(VIF)定义为 VIF=1/(l一Ri2 ),即它是容差的倒数。它的值越大,自变量之间存在共线性的可能性越大。 (3)条件参数(Condition Index) 条件参数是在计算特征值时产生的一个统计量,其具体含义尚不大清楚,但己经提出一些原则:其数值越大,说明自变量之间的共线性的可能性越大;有些学者提议,条件参数≥30(10)时认为有共线性存在的可能性,但理论上并没有得到证明。特征值(Eigenvalue)如果很小,就应该怀疑共线性的存在。 第八章 数据处理与分析 一、数据录入及相关操作 1、变量名、数据类型、宽度、列宽度、标签、值标签、缺失值、度量标准 2、查看变量、转向变量 3、数据添加 纵向:添加个案 横向:添加变量 二、数据的预处理 1、变量排序 2、变量计算 3、数据选取 1)条件选取 2)随即选取(近似;精确) 3)变量选取 三、描述统计分析 1、描述统计常见指标 a.百分位值 b.集中趋势 c.离散 d.分布 偏度:正态0;+,-偏;1明显不是正态分布 峰度:标准正态分布0;0高;0低 2、频率分析——一种全面的描述性统计分析 3、交叉表(列联表)——带有预测性的描述性统计分析 定类:phi系数、列联系数、Gramer’s V系数(0,1) 定序:K’s Tau-b系数、K’s Tau-c系数、Gamma系数(-1,+1) 定类-定距:Eta系数(0,1) 四、推断性统计分析——均值比较 若自变量为二分变量:T检验 单一样本T检验:样本均值与假设值 独立样本T检验:两个独立样本总体的均值 配对样本T检验:两个相关样本总体的均值(心理学中常用:时序配对;同质配对) P0.05拒绝原假设。(原假设即没有差异) 独立样本T检验 分组规则 1、二分变量按照其取值来分组 2、多分变量按照某割点来分组(不推荐) 若自变量为多分变量:ANOVA 方差分析的基本假设: 1、各个总体为正太分布 2、各个总体方差相同(方差齐性) 3、观测值独立 方差分析的基本原理 组内差异=用变量在各组的均值与该组内变量值之偏(离均)差平方和的总和表示。记作SS(sum of squares)组内。 组间差异=用变量在各组的均值与总均值之偏(离均)差平方和的总和表示。记作SS组间。 SS组间、SS组内除以各自的自由度得到其均方值即组间均方和组内均方。 若MS(mean of squares)组间/MS组内≈1,说明样本均来自同一总体,即变量在多个组中没有显著差异。 若MS组间>>MS组内,说明各样本来自不同总体,即变量在多个组中有显著差异。 MS组间/MS组内比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。 因变量:要研究的变量 因子:自变量,即不同条件下因变量的差异。 五、因子分析 1、定义:将多个原始变量总结为较少的几个综合指标,即因子。 2、条件:多个变量具有较强的相关关系。 3、原则: 1、“降维“——新生成的因子数量远远小于原始变量数量。 2、“保真”——信息丢失应该最少。 4、因子提取的数理实质 X1=a11f1+a12f2+a13f3+a14f4…e1 X2=a21f1+a22f2+a23f3+a24f4…e2 X3=a31f1+a32f2+a33f3+a34f4…e3 … 因子负载:aij 共同度(公因子方差): ai12+ ai22 + ai32 + ai42… 通常累计共同度应该0.6,否则说明因子提取过程信息损失过多。 特征值(因子方差贡献): a1j2+ a2j2 + a3j2 + a4j2… 通常选择因子数量的依据是因子特征值1 六、回归分析 变量之间的联系 确定型的关系:指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即y=f(x)。当知道x的数值时,就可以计算出确切的y值来。如圆的周长与半径的关系:周长=2πr。 回归分析 如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。 回归分析是研究一个自变量或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。 一、线性回归 (一)一元线性回归方程 直线回归分析的任务就是根据若干个观测(xi,yi)i=1~n找出描述两个变量x、y之间关系的直线回归方程y^=a+bx。y^是变量y的估计值。求直线回归方程y^=a+bx,实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法。也就是使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线y^之差的平方和Σ(y-y^)2达到最小。Σ(y-y^)2
文档评论(0)