- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
缺失数据地补充及异常数据地修正.
数模培训作业
论文题目 缺失数据地补充及异常数据地修正
缺失数据地补充及异常数据地修正
摘 要
数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。数据补充,异常数据的鉴别及修正,在各个领域也起到了重要作用。
针对第一问,我们采用了两种模型。第一种是一元多项式回归模型,适用于只有一种自变量的情况。利用我们找到的数据,首先作出散点图,观察其形状,决定拟合多项式的次数,得出拟合曲线与拟合多项式。之后算出均方根误差验证拟合效果,均方根误差较小,说明拟合曲线与源数据吻合得较好。若x1=37.25,x2=41.75,x3=44.5时,y的数据缺失,将x1、x2、x3的值带入拟合多项式,算出缺失值y1=3.3257,y2=2.0437,y3=4.6002,即可补充缺失数据。
第二种是多元线性回归模型,适用于有多个自变量的情况。利用我们找到的数据,首先作出散点图,之后作多元回归,求出多元线性回归多项式,以及置信区间。作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。若x1=0.055,x2=0.025时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=0.052792。类似地,若x1=0.110,x2=0.045时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=0.070212,即可补充缺失数据。
针对第二问,我们使用了异常值检验中标准差未知的t检验法。首先绘制火柴棒图观察可疑测定值,可得到可疑值为第6,9,13,23,26,29,35,36,45,53行的数据。将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正态分布。由这些测定值计算平均值与标准差s,而将可疑值分别当做一个样本容量为1的特殊总体。如果可疑值与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异。检测统计量为:,假设可由标准差s替代来进行检验,则检测统计量可视为:。若统计量值大于相应置信度下的t检验法的临界值(该临界值通过查表法得出),则将可疑值判为异常值。通过计算我们发现,上述可疑值都是异常值。
针对第三问,我们采用了分段线性插值、三次样条函数插值以及分段三次Hermite插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异常。之后利用第二问中的t检验判断修正后的值是否仍为异常值。检验结果显示:分段线性插值、三次样条函数插值所修正的第7个和第9个数据仍为异常值,而分段三次Hermite插值所得到的修正值全都不是异常值。所以运用分段三次Hermite插值得到的结果较准确。
关键词:一元多项式回归、多元线性回归、t检验法、分段线性插值法、三次样条函数插值、分段三次Hermite插值
一、问题重述
关于数据缺失时应该怎样地把缺失数据补充上来?
数据完整,但是数据出现异常,如何给出模型找出异常数据?
异常数据如何修正?
模型假设
假设只有因变量存在数据缺失,而自变量不存在缺失。
利用t检验法时,将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正态分布。
假设可由样本值计算标准差s替代来进行检验。
符号说明
符号 含义 RMSE 均方根误差 样本平均值 s 样本标准差 可疑测定值 总体标准差 k 检测统计量 置信度 置信度下的t检验法临界值 n 样本容量
对问题一的分析和处理
4.1 一元多项式回归模型[1]
当有缺失的一组数据只有一个自变量时,可以考虑使用一元多项式回归模型。我们采用的数据如下表:
表1
首先使用matlab作出散点图,观察其形状,决定拟合多项式的次数,运用matlab编程(matlab程序见附录一)得出拟合曲线与拟合多项式为: z=0.16599*x2-13.387*x+271.62。
拟合曲线如下图所示:
图1 拟合曲线
之后算出均方根误差RMSE验证拟合效果,均方根误差RMSE=0.13931较小,说明拟合曲线与源数据吻合得较好。若x1=37.25,x2=41.75,x3=44.5时,y的数据缺失,将x1、x2、x3的值带入拟合多项式,算出缺失值y1=3.3257,y2=2.0437,y3=4.6002
,即可补充缺失数据。
4.2 多元线性回归模型[1]
当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。我们将data.xls(见附表一)中的数据[5]导入matlab(该模型matlab程序见附录二)。首先作出散点图,设定y(PM10)与x1(SO2)、x2(NO2)的关系为二元线性回归模型,即y=
文档评论(0)