- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【大数据】16种常用的数据分析方法汇总
加米谷大数据
2018-05-27 原文
经常会有伴侣问到一个伴侣,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今日加米谷大数据精选给大家整理了十六种常用的数据分析方法,供大家参考学习。
一、描述统计
描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。
2、正态性检验:很多统计方法都要求数值听从或近似听从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、假设检验
1、参数检验
参数检验是在已知总体分布的条件下(一股要求总体听从正态分布)对一些次要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
1)U验 使用条件:当样本含量n较大时,样本值符合正态分布
2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布
A 单样本t检验:推断该样原来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;
B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相像;
C 两独立样本t检验:无法找到在各方面极为相像的两样本作配对比较时使用。
2、非参数检验
非参数检验则不考虑总体分布能否已知,经常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝能否相同,总体分布能否正态)进行检验。
适用情况:挨次类型的数据材料,这类数据的分布外形一般是未知的。
A 虽然是连续数据,但总体分布外形未知或者非正态;
B 体分布虽然正态,数据也是连续类型,但样本容量微小,如10以下;
次要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
三、信度分析
检査测量的可信度,例如调查问卷的真实性。
分类:
1、外在信度:不同时间测量时量表的全都性程度,常用方法重测信度
2、内在信度;每个量表能否测量到单一的概念,同时组成两表的内在体项全都性如何,常用方法分半信度。
四、列联表分析
用于分析离散变量或定型变量之间能否存在相关。
对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。
列联表分析还包括配对计数材料的卡方检验、行列均为挨次变量的相关检验。
五、相关分析
争辩现象之间能否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
1、单相关: 两个要素之间的相关关系叫单相关,即争辩时只涉及一个自变量和一个因变量;
2、复相关 :三个或三个以上要素的相关关系叫复相关,即争辩时涉及两个或两个以上的自变量和因变量相关;
3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
六、方差分析
使用条件:各样本须是相互独立的随机样本;各样原来自正态分布总体;各总体方差相等。
分类
1、单要素方差分析:一项试验只需一个影响要素,或者存在多个影响要素时,只分析一个要素与响应变量的关系
2、多要素有交互方差分析:一顼试验有多个影响要素,分析多个影响要素与响应变量的关系,同时考虑多个影响要素之间的关系
3、多要素无交互方差分析:分析多个影响要素与响应变量的关系,但是影响要素之间没有影响关系或忽视影响关系
4、协方差分祈:传统的方差分析存在明显的弊端,无法把握分析中存在的某些随机要素,使之影响了分祈结果的精确?????度。协方差分析次要是在排解了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
七、回归分析
分类:
1、一元线性回归分析:只需一个自变量X与因变量Y有关,X与Y都必需是连续型变量,因变量y或其残差必需听从正态分布。
2、多元线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X与Y都必需是连续型变量,因变量y或其残差必需听从正态分布 。
1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、渐渐回归法,向前引入法和向后剔除法
2)横型诊断方法:
A 残差检验: 观测值与估量值的差值要艰从正态分布
B 强影响点推断:查找方式一般分为标准误差法、Mahalanobis距离法
C 共线性诊断:
诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
处理方法:添加样本容量或选取另外的回归如主成分回归、岭回归等
3、Logistic回归分析
线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况
分类:
Logistic回归模型有条件
您可能关注的文档
- 8025 人工智能人工智能已到瓶颈!院士“联名”反深度学习,并指出AI未来发展方向.docx
- 8025 智能制造国家之间的较量永远是制造业.docx
- 8026 工业大数据聊聊工业大数据采集的那些事.docx
- 8026 自动化柴天佑院士:自动化科学与技术发展方向.docx
- 8027 BOM学BOM,此文是绝佳资料——这是我看过的关于BOM最全的资料!.docx
- 8027 CPS从CPS信息物理“系统”到CPC信息物理“计算”,解读物联网背后的背后的技术.docx
- 8027 财富空间当你老了,一生最后悔什么?.docx
- 8028 财富空间王阳明:5种生活智慧,解决人生难题.docx
- 8028 工业.0一个始于90年代的工业.0成功实践.docx
- 8028 智能驾驶六大核心!突破自动驾驶和智慧交通的必由之路.docx
原创力文档


文档评论(0)