- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元回归分析肺吸虫囊蚴脱囊影响因素中有关异常点探析
多元回归分析肺吸虫囊蚴脱囊影响因素中有关异常点探析
作者:曲桂玉 陈景武 杜国防
【摘要】 目的: 探讨准确发现、合理处理实验资料中异常点,资料满足多元线性回归分析条件,确保分析结果真实可靠。方法: 采用残差图、残差分析、影响分析、稳健回归及根据专业知识判断。结果: 第一组资料所对应的点为异常点,删去异常点,最小二乘法建立的方程与稳健回归建立的方程一致。结论: 多种方法结合判断异常点,进一步提高了专业结论的科学性。
【关键词】 异常点; 多元回归分析; 稳健回归
为了研究肺吸虫囊蚴脱囊的影响因素,我们进行了正交试验并对其试验资料进行多元线性回归分析,旨在建立多元线性回归模型,分析探讨其影响因素作用的性质和大小。在回归模型中,异常点是指对既定模型偏离很大的数据点。尤其是数据集中的那些对统计量的取值有非常大的影响力的强影响点[1]。一旦发现异常数据应及时进行相应的处理,以提高回归方程的质量。
1 资料和方法
11 资料根据专业知识选定影响肺吸虫囊蚴脱囊的4个主要因素及水平 ,选用L16(45)正交表安排试验,试验资料收集如表1。
表1 正交试验数据(略)
12 学生化残差值为了考察各个观测数据相对于拟合的回归是否为异常点,常用的方法是考察残差的数值或学生化残差。因为残差的绝对值越大,就表示回归对这一观测拟合得越不好,相对于拟合的回归这一观测就是异常的数据。学生化残差(student residual)ri=ei s1-rii(i=1,2,…,n)式中的S为误差的标准差。在拟合回归时,对不同的自变量值其拟合的误差是不同的。对绝对值相同的残差,其自变量不同,有不同的含义,从这个角度来考虑,就需要将残差的数值除以它的标准差来标准化,通常称为“学生化”。在回归诊断中,通常用学生化残差来判断异常点,对于较大的ri(例如|ri|gt;2)的观察值称为异常值[2](outlier)。本研究中第一组数据观察值|ri|=2.44,所以认为此值为异常值。它所对应的点为异常点。
13 残差图多元线性回归分析资料残差图一般要求n个点的散布是无规则的。当残差图中的点呈现某种规律或趋向时,就可以对模型的假设提出怀疑。用残差图(residual plot)作为一种直观但经常有效的非正式检查方法。本研究以学生化残差ri为Y轴,以预测值为X轴作标准化残差图(图1),大部分散点落在|ri|≤2的水平带状区域内,只有第一组观察值落在该范围外,所以直观上认为该观察值所对应的点为一个异常点。由于学生化残差考虑了自变量空间中试验点的位置(由hii测得),所以学生化残差比普通残差更为合理,作图更易发现异常点[2]。
14 影响分析 影响分析是研究每个观测点对于参数估计的影响,目的在于找出对参数估计影响大的观测值。这对于样本量较小的回归分析尤为重要。对于参数估计值影响较大的观测值,称为强影响点。
图1 残差图(略)
141 CookD值CookD统计量法是观察回归方程及剔除第i个观察之后的回归方程中的预测值与实际值之间Cook距离来判断第i个观测值是否为大的影响点的方法。Di(M,c)=(i)-)M((i)-) c 通常Digt;1就认为第i组数据是一个强影响点。而在实际中,当Digt;0.8或Digt;0.6(当其余的Di较小)时就是一个强影响点[3]。本研究中第一组数据CookD为0.83,因此可认为该观察点为强影响点。
142 DFFITS它是通过测量一个观测值排除是否对其预测值有影响,从而判断该观测值是否为强影响点[2]。 DFFITSi=(i-(i))/s(i)hii,其中i表示用全部数据拟合回归对yi的预测值,(i)表示将第i个观测值排除在外后拟合回归对yi的预测值。通常以2为其界值。本研究中第一组数据DFFTIS值为-2.8688,其绝对值大于2。
15 根据专业知识判断产生异常值通常有两个方面的因素:一是环境因素的显著变化;二是人为因素。对于环境因素,异常值的出现恰恰是反映实况的突变,所以应结合实际,慎重分析。我们来看,本课题中认为的异常点,第一组观察值中自变量胃酶浓度为0,胆盐浓度为0,胰酶浓度为0,胃酶作用时间5分钟,从专业角度看,几乎相当于所有观察指标皆为0,与要模拟的实际状况是不相符合的。于是从专业来看第一组资料所对应的点可看作异常点。
16 稳健回归有学者认为,一个样本点是否为异常值,不能单凭它在最小二乘法之下计算的残差去判定,除了经验以及对这样本是如何获得的了解外,用M估计也能有一些帮助[1]。在M估计中,被诊断为“异常值”的观察点,给予的权重都较小,最小二乘法中残差越小的或越接近0的点,给予的权重越大。在此我们采用稳健回归的M估计,根据反复迭代加权最小二乘法,我们知道
文档评论(0)