- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
詹学朋探索性数据分析及R语言的实现
探索性数据分析及R语言的实现
( 作者:詹学朋 )
摘要:探索性数据分析是数据分析一个重要阶段,应当得到足够重视。本文前部分回顾了探索性数据分析的历史,论述了探索分析的必要性和内容。后半部分先简要介绍了R语言,再重点介绍R语言在探索性数据分析中的应用。
关键字:探索性数据分析;R语言;数据分析;图形
文章索引:
1. 探索性数据分析的简要介绍
2. 探索性数据分析的必要性和意义
3. 探索分析的内容和考察方法
3.1探索分析的内容
3.2探索分析的考察方法
4. R语言的简介
5. R语言的探索性分析功能
5.1主要分析工具
5.2单变量数据分析
5.3双变量数据分析
5.4 R语言的高级制图功能
6.总结
探索性数据分析的简要介绍
探索性数据分析(Exploratory Data Analysis, EDA)首先由 J.W.Tukey提出的。Tukey从生物学家那里学了许多分析数据的方法,并引入统计学中。1977年,Tukey出版了他的名著《探索性数据分析》(UNDERSTANDING ROBUST AND EXPLORATORY DATA ANALYSIS),引起了统计学界的关注,成为探索分析的第一个正式出版物。80年代后期,我国一些统计学者将这本著作介绍给我国统计学界,对我国统计学理论研究和统计事业的实践起到了积极作用。此后,国内也有不少关于探索性数据分析方法的文章发表到各种统计刊物。
随着计算机技术的飞跃发展,以及数据的复杂性越来越强,实施探索性数据分析成为数据分析中不可替代的一部分,从而在统计分析的过程中发挥着越来重要的作用。
探索性数据分析的必要性和意义
统计学原理告诉我们,搜集到的数据在建立数据文件以后,并非立即投入统计分析,因为数据结构、数据中隐含的内在统计规律等尚不清楚,需要对数据进行考察和探索。
因此,应用数据分析的整个操作步骤大体可以划分为两大阶段:探索阶段和证实阶段。探索性数据分析分分离出数据的模式和特点,把他们有力地显示给分析者。常常,分析者现对数据做探索性数据分析,而后才能有把握地选择结构分量或随机分量的模型;探索性数据分析还可以用来揭示:数据对于常见模型的意想不到的偏离。探索性方法的要点是灵活性:它既要灵活适应数据的结构,也要对后续分析步骤揭露的模式灵活反应。
证实性数据分析评估观察到的模式或效应的再现性。传统的统计推断提供显著性或置信性陈述,证实性分析和它。可是,证实阶段通常还包括:(1)将其他密切有关数据的信息结合进来;(2)通过收集和分析新数据确认结果。
总之,探索性数据分析强调灵活探求线索和证据;而证实性数据分析则着重评估现有证据。探索性数据分析与证实性数据分析在具体运用上可交叉进行, 探索性数据分析不仅可用
在正式建立统计分析模型之前, 而且还可用在正式建立统计分析模型之后, 对所拟合的统计
模型进行进一步的检查、验证, 提高统计分析的质量。
探索分析的内容和考察方法
探索分析的内容
检查数据是否有错误:过大过小的数据均有可能是奇异值、影响点或错误数据。要找出这样的数据,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实反映数据的总体特征。
获得数据分布特征:很多分析方法对数据分布有一定的要求,例如很多检验就需要数据分布服从正态分布。因此检验数据是否正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法。
对数据规律的初步观察:通过初步观察获得数据的一些内部规律,例如两个变量间是否线性相关。
探索分析的考察方法
探索分析一般通过数据文件在分组与不分组的情况下,获得常用统计量和图形。一般以图形方式输出,直观帮助用户确定奇异值、影响点、进行假设检验,以及确定用户要使用的某种统计方式是否适合。、
R语言的简介
R是集统计分析与直观的图形显示于一体,并且属于GNU系统的一个自由、免费、源代码开放的软件。R作为一个计划(project),最早(1995年)是由Auckland大学统计系的Robert Gentlemen 和Ross lhaka开始编制,目前由R核心开发小组(R Development Core Team)维护,完全自愿、工作努力负责,并将全球优秀的统计应用软件打包提供给我们。可以通过R计划的网站了解有关R的最新信息和使用说明,得到最新版本的件和基于R的应用统计软件包。此外,还有来自世界各地,可能从事各种各工作的R的拥护者,他们也自愿为R的发展做出了自己的贡献。
相对其他同类软件,R语言的特色在于:
(1)有效的数据处理和保存机制。
(2)拥有一整套数组和矩阵操作运算符。
(3)一系列连贯而又完整的数据分析中间工具。
(4)图形统计可以对数据直接进行分析和显示,可用于多
文档评论(0)