- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据的分布.doc
§1.2 数据的分布
通过对数据分布的研究, 了解其理论分布(即总体分布)的类型及特征, 从而获得总体分布的信息.
1. 直方图、经验分布函数与QQ图
(1)直方图
直方图=组距,高度(频率除以组距)≈总体概率密度
过程proc capability能依样本确定合适的直方图;
sas系统提供了如下几种常用的参数分布类型:
1) 正态分布
2) 对数正态分布
3) 指数分布
4) Gamma分布
5) Weibull分布
6) Beta分布
(2) 经验分布函数
是总体的相合估计
当充分大时, 有
(3) QQ图的作法和用法
proc capability拟合图,初步好坏,进一步判定需QQ
以为例说明QQ图作法和判断.
设为,为其反函数,
为次序统计量, 则散点图
即为QQ图. 标准分位数 修正量
若样本来自正态, 则散点在附近.
对于其它类型的分布, 也有相应的QQ图, 作判断.
利用QQ图, 可判偏度和峰度.
例1.4 利用例1.1的血清蛋白含量数据, 作
(1)直方图,并拟合正态分布曲线;
(2)经验分布函数图,并拟合正态分布函数曲线;
(3)正态QQ图,直观判别数据是否来自正态总体.
解(1) 血清蛋白含量数据的直方图与正态分布函数曲线
(2)血清蛋白含量数据的经验分布函数与理论分布函数曲线
(3) 血清蛋白含量数据的正态QQ图
调用example1_4.sas可得.
2. 茎叶图
例1.5某班有31名学生,某门课程的考试成绩(略)
作茎叶图. 解 调用example1_5.sas得
(1) 也可直观看出: 高峰, 分散, 偏向, 间隙;
(2) 自然排序.(次序统计量)
例1.6 做出例1.1中
100位女生血清蛋白含
量的茎叶图
解: 调用
example1_6.sas,
可得结果如右图.
结果分析:
数据分布大致对称;
有一些间隙;
有一些异常值.
3. 数据的分布拟合检验、正态性检验
(1) 检验法(适应广)
由分组后实际频数与理论频数之差异大小确定拒受
其中是原假设为真时数据落入第组的概率.
假设检验问题:
分实轴为
得区间
由的含义, 得
,
(可得实际的.
设为中待估参数个数, 当充分大时, 有
(如正态分布中有与两个参数, 即)
若为真, 则应较小.
故对, 查得分位数
,
若,
则拒绝, 否则, 不能拒绝.
SAS中常用等价的值检验法给出结果, 即计算
若, 则拒绝之, 否则, 不能拒绝.
(2) 经验分布拟合检验方法
与之间的距离统计量形式:
1) Kolmogorov-Smirnov统计量
2) Anderson-Darling统计量
3) Cramer-von Mises统计量
若为真, 则这些值都应较小.
用值检验法: 计算
(i) ;
(ii)
对给定的, 若, 则拒绝之,
若, 不能拒绝(一般受之)
注: 在SAS中, 若, 则均输出.
(上法适用各分布, 当然也适合正态性检验)
(3) 正态性W检验法
1)计算, ,,
,
2) 计算,(其中有表可查,SAS中已设)
3) 计算, ().
假设检验问题为: 是正态分布函数
若原假设为真, 则接近1, 否则拒绝.
计算
当时, 拒绝; 当时, 不能拒绝.
过程proc univariate中无需查(系统自动给出)
例1.7 对例1.1做如下分布拟合检验:
1) 正态性W检验;
2) 关于正态分布假设的检验;
3) 关于正态分布假设的几种经验分布拟合检验.
解: 1) 由 example1_7中proc univariate得
,
故不能拒绝, 即来自正态;
2) 由proc cabability得
及
因(给定的), 故不拒, 受之.
3) 由proc cabability得
,
,
故不能拒绝;
,
,
故不能拒绝;
,
,
故不能拒绝(皆不能拒绝.
从而认为样本数据来自正态分布总体.
例1.8 对例1.5中31名学生的考试成绩数据,
1) 做正态性W检验;
2) 若拒绝总体的正态分布假设, 选Weibull, 做分布拟合检验.
解1) 调用proc univariate 得
,
若取, 则因, 故拒绝正态性假设;
佐证1: 偏度, 说明数据左侧偏散;
佐证2: 茎叶图1.8, 说明数据也是左偏的.
2) 选Weibull分布去拟合, 得
及
故在下, 均拒绝为Weibull分布的假设.
剔除异值25后, 再验Weibull分布, 得
及
由此可得, 除Anderson-Darling检验外, 余均认可.
由图知, 拟合较好, 但数据偏少, 可靠性略欠.
第1章 数据描述性分析
第 14 页 共 23 页
文档评论(0)