数据分析方法第一章.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析方法第一章.ppt

第一章 概述 第一章 数据描述性分析 数据的描述性分析即从数据出发概括数据特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也进一步分析的基础。 1.1.1 表示位置的数字特征 1.1.2 表示分散性的数字特征 1.1.3 表示分布形状的数字特征 1.1.1 表示位置的数字特征(统计量) 如果要用简单的数字来概括一组观测数据x1,...,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。 1. 均值(Mean):是所有观测值的平均值,是描述数据取值中心位置的一个度量: 设x1,...,xn是n个观测值,它们的次序统计量为x(1), x(2),…, x(n),即 x(1)≤ x(2)≤…≤x(n) x(1)为最小次序统计量, x(n)为最大次序统计量, 2. 中位数(Median或Med)表示一组数据按照大小的顺序排列时中间位置的数值 中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点具有稳健性。计算方法是:首先将数据从小到大排序为:x(1),...,x(n),然后计算 3. 分位数(Percentile)根据变量值由小到大的顺序排列分割成若干等分,其分界位置上的各个数值实际上是一种分割值。 分位数也是描述数据分布和位置的统计量。对0≤p≤1,数据x1,...,xn的p分位数是 设数据是总体X的样本,总体的分布函数是F(x),设总体的均值为μ=E(X),由大数定律,当n较大时,样本均值可以作为总体均值的估计: 1.1.2 表示分散性的数字特征 1. 方差(Variance或Var) :是由各观测值到均值距离的平方和除以观测量组数减1,是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方; 方差的开方称为标准差(Standard deviation或Std Dev): 标准差的量纲与原变量一致。 变异系数(Coefficient of Variation或CV):是将标准差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的,无量纲量:变异系数的值越大,说明数据集中相对于均值的变化就越大。 设数据是总体X的样本,则数据的方差s2、标准差s、变异系数CV分别是总体方差σ2=Var(X)、总体标准差σ、总体变异系数r= σ/μ的相合估计:即当样本容量n充分大时,有σ2 ≈ s2, σ ≈ s, r≈CV 正态总体N(μ, σ2)的上、下四位数分别为 ξ0.75= μ+0.6745 σ, ξ0.25= μ-0.6745 σ 总体的四分位极差为r1= ξ0.75- ξ0.25=1.349 σ,则有 σ= r1 / 1.349 3.上、下截断点:用来判断异常值的简便方法: Q3+1.5 R1 ,Q1- 1.5 R1 大于上截断点的数据为特大值,小于下截断点的数据为特小值,都视为异常值。 总体为正态分布N(μ, σ2)时,上、下截断点分别为 ξ0.75 +1.5 r1 = μ-2.698 σ, ξ0.25 - 1.5 r1 = μ- 2.698 σ 数据落在上、下截断点之外的概率为0.00698,即对容量n较大的数据,异常值的比率约为0.00698 1.1.3 表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。 1. 偏度(skewness):偏度是刻画数据对称性的指标。偏度的计算公式为: 关于均值对称的数据其偏度为g1=0; 左侧更为分散的数据,其偏度为负(g10),称为左偏; 右侧更为分散的数据,其偏度为正(g10) ,称为右偏。 2. 峰度kurtosis:峰度描述数据向分布尾端散布的趋势 利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若 1 近似于标准正态分布,则峰度接近于零; 2 尾部较正态分布更分散,则峰度为正,称为轻尾; 3 尾部较正态分布更集中,则峰度为负,称为厚尾。 设x1,...,xn是总体X的样本, μ3、 μ4分别表示总体X的3、4阶中心矩,即 μ3=E (X- μ ) 3, μ4 =E(X- μ ) 3 其中μ=E (X) ,则

文档评论(0)

资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档