- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
地学统计_第二章
第二章 样本数据的统计分析和预处理 资源与环境学院 杨勇 目录 描述性统计 频数分布 集中趋势的度量 离散型度量 偏度和峰度 数据检验和分布分析 异常值的识别和处理 正态分布的检验方法 数据转换处理 相关分析和回归分析 回归分析 相关分析 总体,样本和随机样本 总体是指根据统计分析或研究目的而确定的同类事物或现象的全体,有时也把具有共同性质的元素所组成的集合称为总体。 从总体中抽取若干个元素而构成的集合叫样本 在抽选样本时,总体的每一个元素被抽中的概率相同,这时样本就称为随机样本。 在随机抽取的样本的条件下,样本的分布规律与总体的分布规律相似,即样本在一定程度上反映了总体的分布。 2.1 描述性统计 频数分布:测量尺度中的类在某测量集合中出现次数的汇总,说明实测值在测量尺度上的分布情况。 离散型频率分布: 连续型频率分布:(直方图) 集中趋势的度量 反映数据分布集中趋势的参数 算术平均数: 中位数:如果样本数据资料中的全部观测值从小到大一次排列,处于中间位置的观测值称为中位数。 分位数: 众数:频率直方图中对应最大频数的那一组中的组中值。 离散型度量 极差: 四分位差: 离均差: 方差:总体方差: 样本方差: 离散型度量 变异系数:样本变量的相对变异量,可以比较不同样本相对变异程度大小 标准分和标准化变量: 标准分: 偏度和峰度 偏度系数:描述分布的偏斜程度 偏度和峰度 峰度系数:统计数据分布陡峭程度的度量 2.2 数据检查和分布分析 在进行地统计学分析前,为了保证分析结果的可靠性,经常需要对数据进行检查和预处理,剔除异常值的影响,进行正态分布检验和转换,使参与计算的数据尽量符合正态分布。 异常值的识别和处理 正态分布的检验方法 数据转换处理 异常值的识别和处理 异常值:样品数据中出现概率很小的值,往往在分析前需要剔除。方法: 1、平均值加标准差法 2、四倍法 3、格拉布斯法 4、狄克松法 5、t检验法 异常值的识别和处理——平均值加标准差法 正常数据的上下限等于平均值加二倍标准差,适用于数据分布简单均一的情况: 对于数据分布相对复杂的情况,可采用3S法 异常值的识别和处理——平均值加标准差法 异常值的识别和处理——四倍法 某观察数据与该样品平均值的差数(d)大于平均偏差 的4倍时视为异常值。其中平均偏差就是所有观察数据与样本平均值之间的差数的平均值。即: 计算过程: 异常值的识别和处理——格拉布斯法 过程: 测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。 排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。 计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时,必须将所有10个数据全部包含在内。 计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。 异常值的识别和处理——格拉布斯法 确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。 计算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序号—10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n 。 异常值的识别和处理——格拉布斯法 定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。 查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。 比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。 异常值的识别和处理——格拉布斯法 判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除. 余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔
文档评论(0)