- 174
- 0
- 约5.59千字
- 约 15页
- 2018-11-16 发布于江苏
- 举报
数据分析上机实验模拟题库
数据分析上机实验模拟题
一.第一章 数据的描述性分析
1.建立数据集
设有数据集如下: LIMING 23 56 170
LIUHUA 25 60 174
ZHANGWEI 30 65 165
相应变量分别为NAME,AGE,WEIGHT和HEIGHT,输入数据以建立一个名为exe_1的SAS数据集,并打印输出.
2.数据的描述性分析
例1.2 对血清蛋白含量,利用PROC UNIVARITE过程,求数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差,程序如下:
练习:利用MEANS过程求上述基本统计量。
二.回归分析
1.线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质);
矩阵表示
2.统计推断(回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法);
(1) 回归方程的显著性检验:
, ,
检验假设:,
统计量,
时,拒绝
(2)回归系数的统计推断:
检验假设,
统计量 ,
,拒绝
的置信区间:
(3)预测及统计推断:
的置信区间:
3.残差分析及处理措施(误差的正态性检验、残差图分析、Box-Cox变换);
(1)误差的正态性检验
1)残差正态性的频率检验
2)残差的正态QQ图检验
近似一条直线,
(2)残差图分析
3)Box-Cox变换
选择,使
最小
4.回归方程的选取
(1)穷举法
评价回归方程优良性的准则:修正的复相关系数准则;准则,预测平方和准则
(2)逐步回归法
例2.3某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y与他们的研究成果的质量指标、从事研究工作的时间以及能获得资助的指标.为此按一定的设计方案调查了24位此类型的数学家,得数据如书上表2.3所示.
(1)假设误差服从分布,建立与之间的线性回归方程并研究相应的统计推断问题.
(2)假设某位数学家的关于的值为,试预测他的年工资额并给出置信度为95%的置信区间.
三.方差分析----单因素
1.单因素方差分析
(1)统计模型
因变量Y—因素,水平,上观测值
,,
(2) 显著检验
,拒绝.
(3)置信区间 (略)
置信度的置信区间,
置信度的置信区间为
个的置信度至少的同时置信区间
2.双因素等重复试验下的方差分析
(1)统计模型
Y—因素和B,水平,,组合水平观测值
, 为无偏估计.
假设成立时,分别服从分布.
(2)显著检验
假设检验问题:
统计量
检验值:如,拒绝相应假设
(3)无交互效应的各因素均值的估计与比较
(4)有交互效应时因素各水平组合上的均值估计与比较
例3.1 为比较同一类型的三种不同食谱的营养效果,将19只幼鼠分为三组,每组分别为8只、4只、7只,各采用这三种食谱喂养.假定其他条件均保持相同,12周后测得其体重增加量如表3.3所示,设体重增加服从方差分析模型(3.1)或(3.2),试比较这三种食谱的营养效果是否有显著差异.
表3.3 三种食谱下幼鼠的体重增加量
食谱 体重增加量
甲 164 190 203 205 206 214 228 257
乙 185 197 201 231
丙 187 212 215 220 248 265 281
四.主成分分析、典型相关分析
1.主成分分析
(1)基于协方差矩阵的总体主成分的求法 (基于相关系数矩阵类似)
—维随机变量,
协方差阵 非负定.
主成分定义:
满足:(1)系数向量单位化;
(2)各主成分不相关,无重叠信息,;
(3)主成分方差由此递减.
求总体主成
原创力文档

文档评论(0)