数据分析方法汇总及概述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析方法汇总及概述

数据分析方法汇总及概述 一、描述统计: 1、概念:描述统计是指运用制表和分类,图形以及计算概括性数据来描述数据的集中趋势、离散程度、偏度、峰度。 2、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率\回归法、决策树法。 3、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-S检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验: 一)参数检验: 1、概念:在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 ? ?? ???2、U检验:使用条件:当样本含量n较大时,样本值符合正态分布。 3、T检验:使用条件:当样本含量n较小时,样本值符合正态分布。 ? ???分类:1)单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0(常为理论值或标准值)有无差别。2)配对样本t检验:当总体均数未知时,且两个样本是配对的,同对中的两者在可能会影响处理效果的各种条件方面极为相似。3)两独立样本t检验:无法找到在各方面极为相似的的两样本作配对时使用。 二)非参数检验: 1、概念:不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位置是否相同,总体分布是否正态)进行检验。 2、使用情况:1)顺序类型的数据资料,这类数据的分布形态一般是未知的。2)虽然是连续数据,但总体分布形态未知或者非正态。3)总体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下。 3、主要方法:卡方检验、秩和检验、二项检验、游程检验、K-S检验。 三、信度分析: 1、概念:检查测量的可信度,例如调查问卷的真实性。 2、分类:1)外在信度:不同时间测量时,量表的一致性程度。常用方法:重测信度。 2)内在信度:每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何。常用方法:分半信度。 四、列联表分析: 1、意义:用于分析离散变量或定型变量之间是否存在相关。 2、方法:对于二维表,可进行卡方检验,对于三维表,可作mentel-hanszel分层分析。 3、其他:列联表分析还包括配对计数资料的卡方检验,行列均为顺序变量的相关检验。 五、相关分析: 1、概念:研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 2、单相关:两个因素之间的相关关系,只涉及一个自变量和一个因变量。 3、复相关:三个或三个以上因素的相关关系,涉及两个或两个以上的因变量和自变量。 4、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系。 六、方差分析: 1、使用条件:是相互独立的随机样本,来自正态分布总体,方差相等。 2、单因素方差分析:一项实验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。 3、多因素有交互方差分析:一项实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系。 4、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系。 5、协方差分析:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分析结果的准确度。协方差分析主要是在排除了协变量的影响后在对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。 七、回归分析: 一)一元线性回归:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。 二)多元线性回归: 1、使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。 2、变量筛选方式:选择最优回归方程的变量筛选法包括全模型法、逐步回归法、向前引入法和向后剔除法。 3、模型诊断方法:1)残差检验:观测值与估计值的差值要服从正态分布。2)强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法。3)共线性诊断:诊断方式包括容忍度、方差扩大因子法、特征根判定法、条件指针CI、方差比例。处理方法包括增加样本容量或选取另外的回归如主成分回归、岭回归等。 三)logistic回归: 1、使用条件:线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。 2、分类:有条件与非条件之分,区别在于参数的估计是否用到了条件概率。 ? ? 四)其他回归方法:非线性回归、有序回归、probit回归、加权回归等。 八、聚类分析: 一)概念:样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

文档评论(0)

haocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档