数学建模缺失数据补充及异常数据修正课案
题目:数据的预处理问题
摘要
数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。数据补充,异常数据的鉴别及修正,在各个领域也起到了重要作用。
对于第一问,我们采用了多元线性回归的方法对缺失数据进行补充,我们将1960-2015.xls(见附表一)中的数据导入matlab。首先作出散点图,设定y(X59287)与x1(X54511)、x2(X57494)的关系为二元线性回归模型,即y=b0+b1x1+b2x2。之后作多元回归,求出系数b0=18.014,b1=0.051,b2=0.354,所以多元线性回归多项式为:Y=18.014+0.051*x1+0.354*x2。再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。若x1=30.4,x2=28.6时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=29.6888。类似地,若x1=40.6,x2=30.4时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=30.8462,即可补充缺失数据。
对于第二问,我们使用了异常值检验中标准差未知的t检验法。将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正态分布。由这些测定值计算平均值与标准差s,而将可疑值当做一个样本容量为1的特殊总体。如果与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异。检测统计量为:,假设可由标准差s替代来进行检验,则检测统计量可视为:。若统计量值大于相应置信度下的t检验法的临界值(该临界值通过查表法得出),则将判为异常值。由此算法即可鉴别出相应的异常数据。
对于第三问,对于问题三,我们采用了分段线性插值,最近方法插值,三次样条函数插值以及三次多项式方法插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异常。通过各种插值方法的比较,发现三次样条方法较为准确,并较好的对异常数据进行修正。
关键词:多元线性回归,t检验法,分段线性插值,最近方法插值,三次样条插值,三次多项式插值
C38姓名学号专业队长康伟振20141387032应数长望队员一卜维新20141346033网络工程队员二李兰馨20141302059应用气象
问题重述
1.1背景
在数学建模过程中总会遇到大数据问题。一般而言,在提供的数据中,不可避免会出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测结果的准确性意义重大。
1.2需要解决的问题
(1)给出缺失数据的补充算法;
(2)给出异常数据的鉴别算法;
(3)给出异常数据的修正算法。
模型分析
2.1问题(1)的分析
属性值数据缺失经常发生甚至不可避免。
较为简单的数据缺失
平均值填充
如果空值为数值型的,就根据该属性在其他所有对象取值的平均值来填充缺失的属性值;如果空值为非数值型的,则根据众数原理,用该属性在其他所有对象的取值次数最多的值(出现频率最高的值)来补齐缺失的属性值。
(2) 热卡填充(就近补齐)
对于包含空值的数据集,热卡填充法在完整数据中找到一个与其最相似的数据,用此相似对象的值进行填充。
(3) 删除元组
将存在遗漏信息属性值的元组删除。
(二)较为复杂的数据缺失
(1)多元线性回归
当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。
2.2问题(2)的分析
属性值异常数据鉴别很重要。
我们可以采用异常值t检验的方法比较前后两组数据的平均值,与临界值相比较即可辨别数据异常并剔除异常数据。
将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正态分布。由这些测定值计算平均值与标准差s,而将可疑值当做一个样本容量为1的特殊总体。如果与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异。检测统计量为:,假设可由标准差s替代来进行检验,则检测统计量可视为:。若统计量值大于相应置信度下的t检验法的临界值(该临界值通过查表法得出),则将判为异常值。
2.3问题(3)的分析
对于数据修正,我们采用各种插值算法进行修正,这是一种行之有效的方法。
(1)分段线性插值
将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作,它满足,且在每个小区间上是线性函数。
可以表示为
有良好的收敛性,即对于有,
用 计算x 点的插值时,只用到x 左右的两个节点,计算量与节点个数n 无关。但n 越大,分段越多,插值误差越小。实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用的概率分
您可能关注的文档
- 数字系统接口板概述060518-发布版.doc
- 大气十条相关解读.docx
- 大气污染设计论文.doc
- 数字电路设计(数字钟).doc
- 数字监控系统解决方案.doc
- 数字系统设计实验---除法器实验.doc
- 数字社区实施方案.docx
- 大气污染防治工业行业清洁生产技术推行方案》.doc
- 数字系统课程设计报告.doc
- 数字系统课程设计交通灯控制器.doc
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- 我有友情要出租ppt.pptx VIP
- 2018年4月自考30002幼儿园教育活动设计与组织试卷及答案解释.doc VIP
- 2026年湖南国防工业职业技术学院单招职业技能考试题库附参考答案详解(综合题).docx VIP
- 九年级语文下册教学课件《短文两篇》.pptx VIP
- 反应粘结型高分子湿铺防水卷材施工工法.docx VIP
- 2026年湖南国防工业职业技术学院单招职业技能考试题库带答案详解(模拟题).docx VIP
- 拿来可用的管培生实施方案.docx VIP
- 沪教牛津版七年级(初一)下册全册单词表.pdf VIP
- 2026年湖南国防工业职业技术学院单招职业技能考试题库附参考答案详解(培优).docx VIP
- 美容院选址、开业、运营管理成功秘诀+美容店成功经营管理实务手册.doc VIP
原创力文档

文档评论(0)