- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章数据的描述性分析
1.1数据的数字特征
数据分析研究的对象是数据,一元数据是n个观测值
x1,x2,…,x
要研究数据的数字特征,分析数据的集中位置、分散程
度、数据的分布是正态还是偏态。对于多元数据,要分析数据
各个分量的相关性等等
1.1.1均值、方差等数字特征
1.均值
2.方差
标准差s=s
变异系数cv=03(%)
3.k阶原点矩
k阶中心矩a4=1之(x-x
偏度
25(t
(n-1)(n-2)S
偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分
散的数据偏度为负,关于均值对称的数据偏度为0.
峰度
7(1+1)
g
(n-1)(n-2)(n-3)S+a
(-2)(-3
n(n+1)4
(n-1)n-2)n-3)S(n-2)(n-3)
当总体分布为正态时,峰度近似为0:当分布较正态分布的尾部更分
散,峰度为正,否则峰度为负
当数据是某些总体随机取出的样本时,数据数字特征即是样本的
数字特征.与样本数字特征对应的是总体的数字特征样本数字特征是
相应的总体数字特征的矩估计
例1.2某单位对100名女学生测定血清总蛋白含量(g/L),数据如
下
74.378.868878.070.480.580.569.771.273.5
79.575.675078.872.072.072.074.371.272.0
75.073.578.874375865.074.371.269.768.0
73.575.072.064.375.880.369.774.373.573.5
876.570.471.281.275.070.468.0
70.472.076.574.376.577667.372.075074.3
73.579.573.574.765076.58
75472.772.7
67.276.572.770477.268.867.567.567.372.7
75.873.575.073.573.573.572781.670.374
73.579.570476572.777284.375.076.570.4
计算均值、方差、标准差、变异系数、偏度、峰度
解用SAS系统PR0 C UNIVARRIATE过程计算,得
x=73660S2=15.524=3.940
CV=5.349
=0.061g2=0034
偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样
本
1.1.2中位数、分位数、三均值与极差
这些数字特征适合总体分布未知或有偏态的数据设x1,x2
,x是n个观测值,将它们按由小到大排为:xu,x2),…x
称为次序统计量最小次序统计量xu与最大次序统计量xn)分别
为
xo=minxi
=max
中位数与极差
中位数
n为奇数
)n为偶数
2
中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小.
极差
R=X(n-xa
2分位数对0≤p<1,P分位数
为分位数
M
1(xmy+xm1)mp为整数
其中是p的整数部分,当p=1定义M1=xm
P分位数又称第100P百分数大体上有100P%的观测值不超过
M0s即中位数
上四分位数
O=M
下四分位数g
0.25
下列分位数经常用到:Mo,M09,M0s,M0o,M010,Mo0s,Mon
四分位极差R1=Q3-Q1
R
四分位标准差G
1.349
总体标准差σ的稳健估计
三均值
M=:Q+
03
描述数据集中位置的稳健估计
下截断点
2-1.5R
小于下截断点的数据为特小值
上截断点
Q3-1.5R1
大于上截断点的数据为特大值
特小值、特大值合称异常值.
用 PROC UNIVARIATE过程计算分位数、四分位极差;用
PROC IML过程计算三均值、四分位标准差,下、上截断点
例1.8(续例12)
用 PROC UNIVARIATE过程, PROC IML过程计算得到
M=73.5,Q3=75.8.Q=71.2,M0y=8295
M090=79.15,Moo=68.4M05=6
65,R=20,R1=46,=341,
=73.4
下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值).
将异常值84.3剔除,在进行计算分析,得
x=73.55
S=3.810
M=73.5,
O3
=758
Q1=71.2,R1=46
可见,x、M更为接近,M、Q、Q与R与原数值相等,说明有稳健
性,而S原数据的值为3.940,现为3.810说明S对异常值无稳健性
1.2数据的分布
对薮据的
您可能关注的文档
- 数据处理与数据服务汇编.ppt
- 数据处和分析.ppt
- 数据处理和滤波讲解精编.ppt
- 数据处理与数据建模方法详解.ppt
- 数据处理一原则与方法.ppt
- 数据处理与分析详解.ppt
- 数据处理和数据建模方法精品.ppt
- 数据处的理和滤波.ppt
- 数据存储中错误检查和和纠正算法设计.ppt
- 数据存储的和组织管理.ppt
- GB/T 29324-2024架空导线用碳纤维增强复合材料芯.pdf
- 《GB/T 29324-2024架空导线用碳纤维增强复合材料芯》.pdf
- GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集.pdf
- 《GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集》.pdf
- 中国国家标准 GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集.pdf
- 中国国家标准 GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范.pdf
- GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范.pdf
- 《GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范》.pdf
- GB/T 43860.1220-2024触摸和交互显示 第12-20部分:触摸显示测试方法 多点触摸性能.pdf
- 中国国家标准 GB/T 43860.1220-2024触摸和交互显示 第12-20部分:触摸显示测试方法 多点触摸性能.pdf
1亿VIP精品文档
相关文档
最近下载
- 北京交通大学桥梁工程课程设计(重力式桥墩).pdf VIP
- JCT947-2014 先张法预应力混凝土管桩用端板.docx VIP
- 供货商产能负荷分析表、采购物料跟踪管控表、交期管控表、欠料登记表、催料表.pdf VIP
- Amazon电子商务代运营合作协议.docx
- 2024年高考语文一轮复习讲练测(新教材新高考)第05讲小说环境类题目(讲义)(原卷版+解析).docx VIP
- 三年级编写童话故事课件-PPT.ppt VIP
- 叉车司机考试1000题基础知识模拟习题卷(九).doc
- 年产10万吨醋酸乙烯生产车间工艺设计.doc
- 创伤中心培训制度.pdf
- DL 5190.2-2019 电力建设施工技术规范 第2部分:锅炉机组.pdf
文档评论(0)