- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 数据汇总
这一章,我们介绍数据的描述和汇总方法.这些方法大部分以图形的方式展示数据,也可以用其揭示数据结构.在不使用随机模型的情况下,这些方法可以达到描述性分析的目的.如果考虑随机模型,那获得的数据,在一些情形下将它们视为独立同分布的个随机变量的实现.
我们首先讨论经验累积分布函数等,这些方法可以用于展示数据值的分布。接着,我们讨论直方图和相关的图形,它们扮演着随机变量的概率密度的角色,从另一角度展示数据值的分布.我们还将介绍数据的简单汇总,比如用以代表数据中心的样本均值、中位数等,用以量化数据分散程度的样本标准差等,这些统计量比直方图等图形提供了更加浓缩的汇总信息.接着将介绍箱线图,它通过一种简单的图形方式将中心值、散度和分布形状等信息汇总起来.最后介绍散点图,用以揭示变量相关性的信息.
§4.1 基于累积分布函数的方法
经验累积分布函数
设是一组数据,经验累积分布函数(empirical cumulative distribution function,ecdf)定义为
显然是阶梯形的右连续的函数.
例4.1(见P261)
如果要进一步讨论经验累积分布函数的统计性质,那必须置于随机模型下去讨论. 数据视为简单随机样本的实现,它们公共的分布函数为(一般假定是连续型分布).样本的经验累积分布函数定义为
对于任意给定的实数,是一个随机变量,并且~,从而
,
.
可见, 是的无偏估计,且时,从而知 是的相合估计. 关于还有更强的结论:
定理 (格里汶科)对于任意的自然数,设是来自总体分布函数的一个样本,为其经验分布函数,记,则有
该定理表明,经验分布函数会一致地强收敛于总体分布函数.这也说明用经验分布函数推断总体分布函数,用样本各阶矩(即的矩)去推断总体的矩等是合理的,是有理论依据的.
生存函数
随机变量的生存函数定义为
设随机变量的分布函数为,那么生存函数,两者给出的信息是等价的.在应用中,对于寿命数据(一般是非负的),通常分析生存函数而不是分布函数.若样本的经验分布函数为,那么经验生存函数为
例4.2(见P262)
生存函数与危险函数有联系.危险函数定义为
其中分别为的密度函数和分布函数.
也即
为了看清危险函数的统计意义,我们考查元件在使用了时间还未失效的条件下,在接下来的时间段内失效的条件概率
假设密度在处连续,那么有
因此
或
可见危险函数可以视为时刻还正常的元件的即时失效率,或时刻还存活的个体的即时死亡率.
例如,考虑指数分布
即时失效率为常数.如果用指数分布来描述元件的寿命,那么元件的失效的概率不依赖于它的年龄,这是指数分布的“无记忆性”.另一种模型具有U型的危险函数,由于制造过程中的瑕疵很快凸显出来,新的元件具有较高的失效率;中间年龄段元件的失效率降低,接着,随着磨损的出现,旧元件的失效率开始增加.
设寿命样本值为.由于它们是连续随机变量,可以假定它们中没有相等的.该样本排序为,那么,如果,则,.由于在上没有定义,通常将其定义为,.
考查经验对数生存函数的变异性是非常有用的.我们有
当值较大时,很小, 经验对数生存函数的变异性非常大,极端的不稳定.因此,在实用中常需要剔除最后几个数据点
例4.3(见P265)
分位数-分位数图,即Q-Q图
Q-Q图可用来比较两个分布函数.这里假定分布函数是严格单调增加的连续型分布函数,这样可保证对于任意的,分位数是唯一的.分布的分位数是
设是控制组的观测,其分布函数为,是试验组的观测,其分布函数为.试验具有的最简单的效应是同幅度增加试验组中每个成员的响应值,比方说个单位,即两个分布函数具有如下关系:
两个分布的分位数具有如下的线性关系:
其中是分布的分位数, 是分布的分位数,那么在一条斜率为1,截距为的直线上.
另一种效应可能是乘积的:响应(如寿命、强度)乘以一个常数,分布函数具有关系: ;那么分位数具有关系: .从而在一条斜率为,截距为的直线上.
当然,试验效应可能远比这两种简单模型复杂.例如,有些试验有利于弱者,但却损害强者.相对于正常的教学方案,将重点放在初等或基本技巧上面的教育方法预期具有这样的效应.
以上讨论的效应实际上是一种假设.实际中,我们需要具体的试验数据去检验,利用Q-Q图可以非正式地检验这些假设.设是控制组的试验结果,的样本分位数规定为(这样的规定不是唯一的,比如的样本分位数规定为).又设(为方便计,假定两样本的容量相等)是试验组的试验结果,并同样规定分位数.如果试验效应是第一种简单的模型,那么点,应大致在一条斜率为1的直线上.将这些点绘制在平面在直坐标系中,这样的图就叫做Q-Q
文档评论(0)