11-12一般线性相关和多元回归.ppt

Simple Linear Regression 一般线线性回归分析 一元线性回归 一元线性回归 数学模型 最小二乘法 残差 (或误差) 由 ei = Yi - (a + bXi) 表示 最适合的直线即是残差平方和最小的那条线。 最小二乘法 例1 A 黑带想了解一化学蒸馏过程中氧气的纯度(Y)与冷凝器中的炭氢化合物的%之间的关系. Example 1A 例1A Minitab Stat ? Regression ? Regression 例1A: Minitab的对话窗口 Regression Analysis: Oxygen purity % versus Hydrocarbon % The regression equation is Oxygen purity % = 74.3 + 14.9 Hydrocarbon % Predictor Coef SE Coef T P Constant 74.283 1.593 46.62 0.000 Hydrocar 14.947 1.317 11.35 0.000 S = 1.087 R-Sq = 87.7% R-Sq(adj) = 87.1% Analysis of Variance Source DF SS MS F P Regression 1 152.13 152.13 128.86 0.000 Residual Error 18 21.25 1.18 Total 19 173.38 测定系数-- R2定义 测定系数,R2是由回归线代表y中变异数量 统计性意义 线性回归方差分析表 Source DF Sum of Square (SS) Mean Square (MS) Regression 1 SSR = ?i (Yi – Y )2 SSR ÷ 1 Error n-2 SSE = ?i (Yi – Yi )2 SSE ÷ (n-2) Total n-1 SST = ?i (Yi – Y )2 F* = MSR ÷ MSE vs F(1 , n-2)-distribution 整体显著性 在Minitab中P数值是对回归等式的整体显著性的测量 Example 1B 例 1B Minitab Stat ? Regression ? Fitted Line Plot Example 1B: Fitted Line Plot 例1B:拟合线图 例2:残差分析 例2:Minitab的残差图表 例2:Minitab的四合一图 置信区间 Confidence Interval 置信区间(CI) 对于一个给出的 X,Y的平均值的分布区间 。该区间在X=X处最窄; X 值离 X 越远其区间宽度越大。 Prediction Interval 预测区间 (PI) 对于与一个给出的X值相应的个别的Y值的区间。由于其应用个体值,该区间比置信区间宽。 例 2 从文件Oxygen purity.mtw中,测定对于已获得的 线性回归模型的95%置信区间和预测区间。 Minitab 例 2 Minitab Stat ? Regression ? Fitted Line Plot 例2: Minitab的 CI PI 图 例4: 预测 Example 4: Predictions 例4: 预测 例4: Minitab 输出 具有影响的数据点 具有影响的数据点包括下列现象 1) 在正常数据模式以外的数据 强烈影响回归结果的数据 (也就是显著改变斜率或y轴截取值) 具有影响的数据点 这些现象并不一定是坏现象,因此你不一定要删除他们。 具有影响的数据可由于下列原因而被删除: 测量误差 数据输入误差 违反物理定律 具有影响的数据现象:界外点 Outliers 界外点 具有很大的残差数值的现象数据。 具有影响的数据现象:杠杆点 Leverage Points 杠杆点 X方向的高数值数据,它对于平方占有很高的比例 具有影响的现象数据 界外点的处理方法 对于如下两种情况,可以取消界外点: 对不将其纳入分析中有合理的解释(例如:输入错误) 2) 若纳

文档评论(0)

1亿VIP精品文档

相关文档