- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据的分布 数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性检验的问题。 直方图、经验分布函数与QQ图 对于数据分布,常用直方图进行描述.将数据取值的范围分成若干区间, 区间的长度称为组距.考察数据落入每一区间的频数与频率,在每个区间上画一矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可估计总体的概率密度. 组距对直方图的形态有很大的影响,组距太小,每组的频数较少,因随机性的影响,邻近区间上的频数会很大;组距太大,直方图所反映概率密度的形态就不灵敏. 直方图、经验分布函数与QQ图 直方图、经验分布函数与QQ图 直方图、经验分布函数与QQ图 直方图、经验分布函数与QQ图 例5 (1)作直方图,并拟合正态分布曲线; (2)作经验分布函数图,并拟合正态分布函数曲线; (3)作正态QQ图,并从直观上鉴别样本数据是否来自正态分布总体。 Proc UNIVARIATE 统计程序univariate与统计程序means的功能大同小异,都可以计算数值变量的描述性统计值 但UNIVARIATE能够对变量的分配情形提供更多的信息: 计算四分位数; 绘制描述性分析图(茎叶图;箱线图、QQ图等);检定资料是否呈现正态分布; 产生统计值输出文件,以供稍后的分析。 univariate过程的一般格式 proc univariate 选项列表;? by 变量名称(分组变量);? class 变量名称(分组变量);? freq变量名称(数值变量,记录出现的频数)? weight变量名称(数值变量,记录的权重系数)? histogram 变量名称/选项列表? output out=数据集名 统计量关键字=自定义变量名? var 变量名称(待分析的数值变量); run; univariate过程的一般格式 在一个Univariate过程中,output指令可以多次使用,但是其他六道指令只能出现一次; 这六道指令可以按任何顺序出现。 univariate过程的一般格式 Data=输入资料文件名称 若省略此选项,SAS会找出在本程序之前最后形成的资料文件,并对它进行分析; Noprint 若只要产生统计值的输出文件,而不想印出报表,可用 此选项来抑制报表的产生; Plot 产生三种图形:茎叶图或平行条状图、箱线图、常态概率图; proc univariate 选项列表 FREQ 产生一个次数分配表,这个表包括变量值的出现次数、百分比及累积百分比; NORMAL 检定输入资料是否呈现正态分布,并且输出其检验的结果; 指令 VAR 变量名称串 1 列举需要进行描述性统计分析的变量名称; 2 若省略此指令,将对输入文件中所有数值变量进行分析; 3 若选用output指令,则不可省略var指令。 指令 BY 变量名称; UNIVARIATE程序依据此指令所列举的变量,将文件分成几个小文件,然后就每个小文件,分别执行分析,选用此指令时,文件内的数据必须先按照BY变量串的值做由大到小的重新排列,这个步骤也可借由PROC SORT达成。 指令 FREQ 变量名称: 这个变量必须是输入文件中的一个数值变量,其值代表观察体重复出现的次数。 若此变量的值含小数,则取其整数部分。 若其值小于1,则此观察体将被剔除在计算过程之外。 茎叶图、箱线图及五数总括 与直方图相比较,茎叶图更能细致地看出数据分布的结构。 引例1 某班有31个学生,某门课程的考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出其茎叶图。 茎叶图、箱线图及五数总括 茎叶图的特点 茎叶图与直方图一样,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。 从茎叶图可以看出由原始数据得到的次序统计量。 对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;反之称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即 深度=min(升秩,降秩) 例6 铅压
您可能关注的文档
最近下载
- 农庄小能手(积肥)(教学设计)-四年级下册劳动教育“小农庄”(校本课程).docx VIP
- 世界上最棒的礼物幼儿园儿童故事绘本PPT课件.pptx VIP
- 幼儿园故事《世界上最棒的礼物》绘本故事PPT课件.pptx VIP
- 幼儿园故事《世界上最棒的礼物》绘本故事PPT课件.pptx VIP
- 中国石化品牌管理手册解读(适用业务简单的单位).pptx
- 世界上最棒的礼物幼儿园儿童故事绘本PPT课件.pptx VIP
- 酒店管理物业 物业消防设施月度维保检查记录表——集团连锁酒店管理公司(叶予舜).docx VIP
- 室内分布通信系统工程施工组织设计方案.docx
- 北师大版2024年数学七年级下册期末模拟培优卷(含答案).docx VIP
- 铁路防洪重大风险分析与管控措施.pdf VIP
文档评论(0)