第03章试验数据的表观分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第03章试验数据的表观分析

目 录 第03章 试验数据的表观分析 1 §3-1 探索性分析概述 1 §3-2 一维数据的展示分析 2 一、频数频率分布表与直方图 2 (一)频数频率分布表 2 (二)直方图 3 二、茎叶图 3 (一)基础茎叶图 3 (二)扩展茎叶图 4 (三)茎叶图的行数选择 5 三、五数概括 5 (一)数组与深度 5 (二)五数概括 5 (三)三均值 6 (四)数据散布 7 四、箱线图 7 (一)箱线图 7 (二)箱线图用于多批数据的比较 8 (三)散布对水平的图示 8 §3-3 多维数据的展示分析 9 一、轮廓图 10 二、雷达图 10 三、调和曲线图 11 四、星座图 12 §3-4 数据变换分析 15 一、幂变换 15 二、对称变换 16 三、匹配变换 19 第03章 试验数据的表观分析 §3-1 探索性分析概述 探索性数据分析(Exploratary Data Analysis,EDA)的基本思想是从数据本身出发,不拘泥于模型的假设而采用非常灵活的方法来探究数据分布的大致情况,也可以进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础和减少盲目性。 探索性数据分析的基本方法有以下四个主题:异常值分析、展示分析、变换分析、耐抗性分析、残差分析。具体意义是: 1、异常值分析 在选定的可靠性概率条件下,根据某些检验方法作出某个或某些观测值是否属于异常的判断。 2、展示分析 用图、表的方法来描述数据分析的结称为展示。展示的方法能直观、简单地表述数据分析的情况,给人们以一目了然的感觉。 3、变换分析 在取得原始数据以后,为使得数据分析变得简单而对原始数据所作的变换,称为数据的重表达或变换。例如,对原始数据进行取对数、开方或其他形式的变换,通过变换可使原先不对称的数据变得对称,可缩小数据的变异或用简单的线性模型来描述数据的规律等。 4、耐抗分析 当我们用某种方法去描述或概括数据的特征时,如果数据中有少部分数据发生变化时,也不会改变原来的结果,说明这种具有耐抗性,例如,用中位数描述一组数据的位置时,它不会受少数几个离群数据的影响,具有很好的耐抗性。 5、残差分析 用一个模型去拟合一组数据,拟合的优劣用数据与拟合值之差来表示,这个差称为残差,即:残差=数据-拟合值。例如,数据(xi,yi),i=1,2,…,n, (1) 则残差 (2) 通过残差分析可以看出数据与模型之间的差距,如果数据组中的大部分数据与模型之间的差距都很小,说明该模型是一个耐抗拟合,对于残差有反常的情况,需要从数据和模型两个方面去查找原因。 §3-2 一维数据的展示分析 一、频数频率分布表与直方图 (一)频数频率分布表 通过抽样或试验所得到的数据通常杂乱无章的,只有通过整理才能从中发现规律。数据整理的一种常用的方法是给出数据的频数频率分布表,其步骤如下: 假设样本数据为x1,x2,xn,…… (1)找出数据中最大值和最小值计算两者之差,称为极差记作R,即 R=- (3) (2)根据样本容量n对进行分组,通常可分为5~15组,组数k有一个经验公式: (4) 上述k的公式不是绝对的,可以较大的灵活性,只要能数据的规律即可。 (3)如果按等距间隔分组,则可根据分组数k和极差R确定组距d: (5) (4)确定各区间的上、下限,在确定各组上、下限时,应使最低一组区间包含最小值,最高一组区间包含最大值。另外,要使得每个数据只能落在一个组区间内,这时可采用组区间的上、下限数值比原始数据的测量精度高一位,或用半开闭区间等方法。 (5)算出各组的频数,vi,j=1,…,k (6)fi=xi/n,j =1,…,k 1:表1是上海市中心气象台99年(1884~1982)的年降水量的资料,试列出频数频率分布表。 表1 上海市1884~1982年降水量(mm) 1184.4 1113.4 1203.9 1170.7 975.4 1462.3 947.8 1416.0 709.2 1147.5 935.0 1016.3 1031.6 1105.7 849.9 1

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档