数据分析课件1精要.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析课件1精要

;第一章 数据描述性分析;1. 数据的数字特征; 数据分析研究的对象是数据, 一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、 数据的分布是正态还是偏态。 对于多元数据,要分析数据各个分量的相关性等等 . ; 1.1.1 均值、方差等数字特征 1.均值 2.方差 标准差 变异系数 ; 1.1.1 中位数、分位数、三均值与极差 ; ;其他异常值的发现方法; 样本中的个别观察值,其数值明显地偏离子样中其余的观察值,这些个别观察值可能来自不同的总体,我们称之为异常值(或离群值)。;; 就前例,天文学家肖维勒于1863年处理的关于金星垂直半径的15个观察数据的残差数据: -1.40,-0.44,-0.30,-0.24,-0.22,-0.13, -0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01。 ;2. 数据的分布;数据处理 ;; 1.2.1 直方图、经验分布函数与QQ图 1. 直方图 数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率/组距,每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROC CAPABILITY过程可以做出直方图. 直方图可以对总体概率密度 进行估计,这就是拟合分布曲线. SAS系统用PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线.;直方图;经验分布函数图;QQ图;数据处理 ;;;1.2.2 茎叶图、箱线图及五数总括;特点: 1)直观看出数据分布情况,绝大部分数据在70~95之间,在80~89之间形成一个高峰,数据没有30余分,数据有间隙. 2)自然显出数据排序.可看出原数据次序统计量. ;例1.12 铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5 作出茎叶图. 解 利用PROC UNIVARIATE过程,可作茎叶图.为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取0???1,2,3,4,另一行取5,6,7,8,9.计算结果数据从大到小排列.;2. 箱线图 画一个矩形,两个端边分别是 ,中间两道线,处于 位置.两端向外各画一道直线,分别到上截断点 ,下截断点 .异常值用“×”号表示.; 例1.15 作例1.11的箱线图. 解 下、上截断点:36.5,120.5.异常值25. ; 假设检验回顾;内容;单边检验和双边检验的p值??;; 例1.19(续例1.2) 对例1.2数据,作 (1) 正态性W检验; (2) 关于正态分布假设的 检验; (3) 关于正态分布假设的Kolmogorov-Smirnov检验 解 (1) 由PROC UNIVARIATE 过程,算得 W=0.9827 p=p{W≤0.9827}=0.6709 取 ,因p=0.5382 > ,接受正态性假设. (2)由PROC UNIVARIATE 过程,算得 =4.0784 p=P{ ≥0.4784}=0.5382 取 ,因 p=0.5328> ,接受正态性假设. (3)由PROC UNIVARIATE 过程,算得 D=0.

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档