- 12
- 0
- 约 19页
- 2016-12-05 发布于重庆
- 举报
數理统计第四章
第4章 数据汇总
这一章,我们介绍数据的描述和汇总方法.这些方法大部分以图形的方式展示数据,也可以用其揭示数据结构.在不使用随机模型的情况下,这些方法可以达到描述性分析的目的.如果考虑随机模型,那获得的数据,在一些情形下将它们视为独立同分布的个随机变量的实现.
我们首先讨论经验累积分布函数等,这些方法可以用于展示数据值的分布。接着,我们讨论直方图和相关的图形,它们扮演着随机变量的概率密度的角色,从另一角度展示数据值的分布.我们还将介绍数据的简单汇总,比如用以代表数据中心的样本均值、中位数等,用以量化数据分散程度的样本标准差等,这些统计量比直方图等图形提供了更加浓缩的汇总信息.接着将介绍箱线图,它通过一种简单的图形方式将中心值、散度和分布形状等信息汇总起来.最后介绍散点图,用以揭示变量相关性的信息.
§4.1 基于累积分布函数的方法
经验累积分布函数
设是一组数据,经验累积分布函数(empirical cumulative distribution function,ecdf)定义为
显然是阶梯形的右连续的函数.
例4.1(见P261)
如果要进一步讨论经验累积分布函数的统计性质,那必须置于随机模型下去讨论. 数据视为简单随机样本的实现,它们公共的分布函数为(一般假定是连续型分布).样本的经验累积分布函数定义为
对于任意给定的实数,是一个随机变量,并且~,从而
,
.
可见, 是的无偏估计,且时,从而知 是的相合估计. 关于还有更强的结论:
定理 (格里汶科)对于任意的自然数,设是来自总体分布函数的一个样本,为其经验分布函数,记,则有
该定理表明,经验分布函数会一致地强收敛于总体分布函数.这也说明用经验分布函数推断总体分布函数,用样本各阶矩(即的矩)去推断总体的矩等是合理的,是有理论依据的.
生存函数
随机变量的生存函数定义为
设随机变量的分布函数为,那么生存函数,两者给出的信息是等价的.在应用中,对于寿命数据(一般是非负的),通常分析生存函数而不是分布函数.若样本的经验分布函数为,那么经验生存函数为
例4.2(见P262)
生存函数与危险函数有联系.危险函数定义为
其中分别为的密度函数和分布函数.
也即
为了看清危险函数的统计意义,我们考查元件在使用了时间还未失效的条件下,在接下来的时间段内失效的条件概率
假设密度在处连续,那么有
因此
或
可见危险函数可以视为时刻还正常的元件的即时失效率,或时刻还存活的个体的即时死亡率.
例如,考虑指数分布
即时失效率为常数.如果用指数分布来描述元件的寿命,那么元件的失效的概率不依赖于它的年龄,这是指数分布的“无记忆性”.另一种模型具有U型的危险函数,由于制造过程中的瑕疵很快凸显出来,新的元件具有较高的失效率;中间年龄段元件的失效率降低,接着,随着磨损的出现,旧元件的失效率开始增加.
设寿命样本值为.由于它们是连续随机变量,可以假定它们中没有相等的.该样本排序为,那么,如果,则,.由于在上没有定义,通常将其定义为,.
考查经验对数生存函数的变异性是非常有用的.我们有
当值较大时,很小, 经验对数生存函数的变异性非常大,极端的不稳定.因此,在实用中常需要剔除最后几个数据点
例4.3(见P265)
分位数-分位数图,即Q-Q图
Q-Q图可用来比较两个分布函数.这里假定分布函数是严格单调增加的连续型分布函数,这样可保证对于任意的,分位数是唯一的.分布的分位数是
设是控制组的观测,其分布函数为,是试验组的观测,其分布函数为.试验具有的最简单的效应是同幅度增加试验组中每个成员的响应值,比方说个单位,即两个分布函数具有如下关系:
两个分布的分位数具有如下的线性关系:
其中是分布的分位数, 是分布的分位数,那么在一条斜率为1,截距为的直线上.
另一种效应可能是乘积的:响应(如寿命、强度)乘以一个常数,分布函数具有关系: ;那么分位数具有关系: .从而在一条斜率为,截距为的直线上.
当然,试验效应可能远比这两种简单模型复杂.例如,有些试验有利于弱者,但却损害强者.相对于正常的教学方案,将重点放在初等或基本技巧上面的教育方法预期具有这样的效应.
以上讨论的效应实际上是一种假设.实际中,我们需要具体的试验数据去检验,利用Q-Q图可以非正式地检验这些假设.设是控制组的试验结果,的样本分位数规定为(这样的规定不是唯一的,比如的样本分位数规定为).又设(为方便计,假定两样本的容量相等)是试验组的试验结果,并同样规定分位数.如果试验效应是第一种简单的模型,那么点,应大致在一条斜率为1的直线上.将这些点绘制在平面在直坐标系中,这样的图就叫
您可能关注的文档
- 广东省专插本艺术概论2013年历年题集(含答案).doc
- 执业医师内科复习指导-冠状动脉粥样硬化性心脏病.doc
- 执业医师模拟测试卷doc10.doc
- 技安试题(new).doc
- 成本会计形成性考核册及参考答案[][].doc
- 數控机床维修大赛考试试题.doc
- 數控机床电气控制试题库.doc
- 數控机床装调与维修竞赛项目竞赛试题(李海清).doc
- 數控机床试题库.doc
- 數控理论试题.doc
- 第24课《诗词曲五首》之《白雪歌送武判官归京》课件(共40张PPT)2025-2026学年统编版语文九年级下册.pptx
- 第24课《诗词曲五首——山坡羊 潼关怀古》课件(共29张)2025—2026学年统编版语文九年级下册.pptx
- 第六单元课外古诗词诵读《别云间》课件(共21张PPT)2025—2026学年统编版语文九年级下册.pptx
- 应聘学校教官面试题及答案.doc
- 5s管理辩论题目及答案.docx
- 第六单元课外古诗词诵读《山坡羊 骊山怀古》课件(共20张PPT)2025—2026学年统编版语文九年级下册.pptx
- 内蒙二级建造师考试题目.doc
- 二年级上册7 古诗二首 说课课件(42张PPT).pptx
- 林草局笔试题库及答案.doc
- 2025年架修规程3篇.docx
最近下载
- 某天然气公司燃气系统运行安全现状评价报告.doc
- 维修Switch+中文版教程.pdf VIP
- 公共营养师四级试题【含答案】.docx VIP
- 统编人教部编版小学六年级下册道德与法治第一单元教学案.docx VIP
- IPC-6012F-CN-中文版 2024 TOC 刚性印制板的鉴定及性能规范.pdf VIP
- 2025年寒假作业七年级生物北师大版答案.pdf VIP
- impella for doctors左心辅助知识讲座.pptx VIP
- 成人患者医用粘胶相关性皮肤损伤的预防及护理(1).pptx VIP
- 安徽省高新技术产品国际竞争力:现状、挑战与提升策略.docx VIP
- PENTAX宾得 645NII相机手册.pdf VIP
原创力文档

文档评论(0)