- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章数据描述性分析
PAGE
PAGE 32
第一章 数据描述性分析
教学目标:本章是数据分析的描述性分析,需要掌握数据的一些基本数字特征、相关分析,以及数据的分布检验,并能够熟练地运用SAS软件计算数字特征、相关分析、作出数据的分布图及进行分布检验。
重难点:运用SAS软件计算数字特征、相关分析、作出数据的分布图及进行分布检验。
第零节 SAS系统简介
(约2课时)
SAS(Statistical Analysis System缩写)软件是应用最为广泛的数据分析软件之一,包含了从简单的描述性分析到复杂的多元统计、生存分析等广泛的数据分析方法。
为便于区分,我们约定对SAS系统的专用语句及编程语句用大写字母,对一些说明星的语句用小写字母,而在具体上机编程中不必如此。
SAS系统是在Windows环境下的一个数据分析软件,其界面包括三部分:程序窗口、SAS log窗口及输出结果窗口。
一. 数据的输入与输出
*数据集的建立
SAS系统是按每个观测向量逐个处理数据,一个典型的SAS数据集由变量行和数据行组成:
变量行
数据行
建立SAS数据集的常用方法有两种,一是在程序窗口直接输入数据,二是利用已有数据集建立SAS数据集。
1. 直接输入数据建立SAS数据集
在程序窗口直接输入数据,其基本语句形式为
DATA name;
INPUT variables;
CARDS;
data lines
;
说明:
1)要建立永久性数据集,要采用二级命名。若不赋予数据集名称,则自动赋予名称DATA1、DATA2、…。
2)非数据变量,需要在变量名后空一格,再写“$”。输入变量的格式有两种:自由和固定。
①自由格式输入。在“INPUT”后依次输入各变量,变量之间用空格分开;
②格式化输入
3)如果数据的每一行有多于二组观测向量,则在变量后加“@@”。
4)“;”表示数据结束。
2.利用外部数据集建立SAS数据集
DATA name(新数据集名);
INFILE ‘drive location: file name’(外部数据集的路径及数据集名称);
INPUT variables(根据外部数据集的格式确定相应得变量输入格式);
*SAS数据集的输出
格式:PROC PRINT DATA=name;
说明:打印观测向量序号OBS、各变量名及其取值。
二. 利用已有的SAS数据集建立新的SAS数据集
*两个SAS数据集的合并
1)串联
语句形式:
DATA name(新数据集名);
SET A B;
说明:两数据集必须有相同的变量。
2)并联
语句形式:
DATA name(新数据集名);
MERGE A B;
说明:两数据集必须有相同数据行。
*变量值得排序
语句形式:
DATA new name;
PROC SORT DATA=name;
BY (DESCENDING降序,否则就是升序排列) variable;
*删除数据集中的某些数据行
语句形式:
DATA new name;
SET DATA=name;
IF conditions THEN DELETE;
说明:“conditions”数据行的序号或某个变量的取值所满足的条件。
*删除数据集中某些变量及其观测值
语句形式:
DATA new name;
SET DATA=name;
DROP variables(要删除的变量名)(或KEEP variables需要保留的变量名)
*产生新变量及其观测值
语句形式:
DATA new name;
SET DATA=old name;
变量的变换公式;
RUN;
三. SAS系统的数学运算符号及常用的SAS函数
*数学运算符号
幂运算“**”,加法“+”,减法“-”,乘法“*”,除法“/”。
表达式:变量名=数学表达式或‘非数值字符串’
*SAS函数
见表9.2。
在均匀分布和正态分布等的随机函数中,需要给定初值“Seed”,否则在不同的时刻产生不同的随机数。
简单统计量函数种,“arguments”表示一系列数据或已经赋值的一系列变量,将数据或变量逐个列出,并用“,”分开;或者在变量前面加“OF”而不要逗号。
四. 逻辑语句与循环语句
*逻辑语句
语句形式:
IF conditions THEN command;
ELSE command;
*循环语句
SAS循环语句以“DO”开始,“END”结束,有三种形式:
1)DO variable=a TO b BY increment;
2)DO UNTIL (condition);
3)DO WHILE (condition)
作业:实验一
第一节 一维数据的数字特征
(约2课时)
一. 均值、方差等数字特征
一元数据的数字特征主要有下列几种。设样本容量为n的观测值为。
均值
均值即是的平均数:
文档评论(0)