数据的分布.docVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据的分布.doc

§1.2 数据的分布 通过对数据分布的研究, 了解其理论分布(即总体分布)的类型及特征, 从而获得总体分布的信息. 1. 直方图、经验分布函数与QQ图 (1)直方图 直方图=组距,高度(频率除以组距)≈总体概率密度 过程proc capability能依样本确定合适的直方图; sas系统提供了如下几种常用的参数分布类型: 1) 正态分布 2) 对数正态分布 3) 指数分布 4) Gamma分布 5) Weibull分布 6) Beta分布 (2) 经验分布函数 是总体的相合估计 当充分大时, 有 (3) QQ图的作法和用法 proc capability拟合图,初步好坏,进一步判定需QQ 以为例说明QQ图作法和判断. 设为,为其反函数, 为次序统计量, 则散点图 即为QQ图. 标准分位数 修正量 若样本来自正态, 则散点在附近. 对于其它类型的分布, 也有相应的QQ图, 作判断. 利用QQ图, 可判偏度和峰度. 例1.4 利用例1.1的血清蛋白含量数据, 作 (1)直方图,并拟合正态分布曲线; (2)经验分布函数图,并拟合正态分布函数曲线; (3)正态QQ图,直观判别数据是否来自正态总体. 解(1) 血清蛋白含量数据的直方图与正态分布函数曲线 (2)血清蛋白含量数据的经验分布函数与理论分布函数曲线 (3) 血清蛋白含量数据的正态QQ图 调用example1_4.sas可得. 2. 茎叶图 例1.5某班有31名学生,某门课程的考试成绩(略) 作茎叶图. 解 调用example1_5.sas得 (1) 也可直观看出: 高峰, 分散, 偏向, 间隙; (2) 自然排序.(次序统计量) 例1.6 做出例1.1中 100位女生血清蛋白含 量的茎叶图 解: 调用 example1_6.sas, 可得结果如右图. 结果分析: 数据分布大致对称; 有一些间隙; 有一些异常值. 3. 数据的分布拟合检验、正态性检验 (1) 检验法(适应广) 由分组后实际频数与理论频数之差异大小确定拒受 其中是原假设为真时数据落入第组的概率. 假设检验问题: 分实轴为 得区间 由的含义, 得 , (可得实际的. 设为中待估参数个数, 当充分大时, 有 (如正态分布中有与两个参数, 即) 若为真, 则应较小. 故对, 查得分位数 , 若, 则拒绝, 否则, 不能拒绝. SAS中常用等价的值检验法给出结果, 即计算 若, 则拒绝之, 否则, 不能拒绝. (2) 经验分布拟合检验方法 与之间的距离统计量形式: 1) Kolmogorov-Smirnov统计量 2) Anderson-Darling统计量 3) Cramer-von Mises统计量 若为真, 则这些值都应较小. 用值检验法: 计算 (i) ; (ii) 对给定的, 若, 则拒绝之, 若, 不能拒绝(一般受之) 注: 在SAS中, 若, 则均输出. (上法适用各分布, 当然也适合正态性检验) (3) 正态性W检验法 1)计算, ,, , 2) 计算,(其中有表可查,SAS中已设) 3) 计算, (). 假设检验问题为: 是正态分布函数 若原假设为真, 则接近1, 否则拒绝. 计算 当时, 拒绝; 当时, 不能拒绝. 过程proc univariate中无需查(系统自动给出) 例1.7 对例1.1做如下分布拟合检验: 1) 正态性W检验; 2) 关于正态分布假设的检验; 3) 关于正态分布假设的几种经验分布拟合检验. 解: 1) 由 example1_7中proc univariate得 , 故不能拒绝, 即来自正态; 2) 由proc cabability得 及 因(给定的), 故不拒, 受之. 3) 由proc cabability得 , , 故不能拒绝; , , 故不能拒绝; , , 故不能拒绝(皆不能拒绝. 从而认为样本数据来自正态分布总体. 例1.8 对例1.5中31名学生的考试成绩数据, 1) 做正态性W检验; 2) 若拒绝总体的正态分布假设, 选Weibull, 做分布拟合检验. 解1) 调用proc univariate 得 , 若取, 则因, 故拒绝正态性假设; 佐证1: 偏度, 说明数据左侧偏散; 佐证2: 茎叶图1.8, 说明数据也是左偏的. 2) 选Weibull分布去拟合, 得 及 故在下, 均拒绝为Weibull分布的假设. 剔除异值25后, 再验Weibull分布, 得 及 由此可得, 除Anderson-Darling检验外, 余均认可. 由图知, 拟合较好, 但数据偏少, 可靠性略欠. 第1章 数据描述性分析 第 14 页 共 23 页

文档评论(0)

docinppt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档