- 9
- 0
- 约5.14万字
- 约 23页
- 2016-12-08 发布于河南
- 举报
离群点的判和处理
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从题目编号中选择一项填写): A
题目:数学建模竞赛
参赛队员:
姓名
专业班级
所在学院
电话(手机)
是否报名全国竞赛
A题:离群点的判定
摘要
离群点是指数据中,远离数值的一般水平的极端大值和极端小值,也称之为歧异值,有时也称其为野值,其对后续的数据处理有很大的影响;本文研究的目的是拟建立适当的数学模型,评判出一组数据中的离群点,并对出现的离群点进行处理。
对于问题一的第一小问,本文拟将一维数据分成确定数据和不确定数据两类,对于确定数据建立残差绝对值模型发现离群点,当残差绝对值y(n)y1-a(n)时,残差绝对值对应的Xi即为离群点;对于不确定数据,建立可能世界模型确定数据的邻居对象,在传统确定性数据判定方法的基础上,离群点的概率还需要满足所给出的概率阀值;同时满足两个条件即为离群点。
对于问题一的第二小问,本文拟采用aggarwal等所提出的评价指标体系评价残差绝对值模型判定离群点的有效性,计算真正的离群点数占该方法所找出的离群点的比例,比例越大残差绝对值模型判定离群点的有效性越好。
对于问题二,对离群点的处理本文拟分为标准偏差预知和标准偏差未知两类,对于标准偏差预知,本文拟采用统计量T=(X-)/σ,T值大于舍弃界限中相应置信度下的临界值则舍弃否则保留;对于标准偏差未知,本文分别采用拉依达准则、狄克松法、肖维特法、格鲁布斯法、学生化残差绝对值法对离散点进行处理,更科学决定离散点的舍与留。
对于问题三,对于n维数据离群点的判定,本文拟采用神经网络模型求解,运用DPS数据处理系统将n维数据分为离群点和非离群点两类,输出的离群值即为要发现的离群点;本文拟采用蠓分类试验对神经网络模型来检验其有效性。
问题重述
离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。
形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。
不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。
问题一:针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。
问题二:如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响。
问题三:针对n维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。
模型假设
假设:
假设同一样本中的数据相互独立;
假设已事先确定样本数据的置信度;
假设本文中讨论的离群点均是同一组分析数据中产生的,不涉及同一主体中不同样本间的离群点问题;
假设随机变量的测量值服从正态分布;
符号的约定
: 样本数据的算术平均值
: 样本数据的残差
: 样本数据的标准偏差
: 样本残差
: 实验残差
: 不包括离群点在内的其他实验测定值求得的样本偏差
: 统计量
: 待检验的离群点
: 狄克松法中的统计量
: 肖维特法中的统计量
您可能关注的文档
- 构建有效优课堂实现师生共同发展.ppt
- 产品设计思.ppt
- 出类拔萃 3).ppt
- 本科毕业论.doc
- 学生的课堂与度是课堂评价的一个重要指标.doc
- 2015高语文总复习写作精品课件:第4节 内容充实.ppt
- 激发无限潜.ppt
- 电控与PL课程设计任务书.doc
- 思维导图教课件.ppt
- 作文评讲《也是课堂或考试》.ppt
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- 2025年植物源新农药百部碱行业深度研究报告.docx
- 2025年高考英语北京卷真题(解析版).doc VIP
- 高考数学考点与题型全归纳.docx VIP
- (高清版)-B-T 30146-2023 安全与韧性 业务连续性管理体系 要求.pdf VIP
- 高考数学考点题型全归纳.pdf VIP
- 2026年度黑龙江省交通运输厅所属事业单位公开招聘工作人员86人备考题库带答案详解(完整版).docx
- 2026年01月20日路易达孚(青岛)粮油食路易达孚食品科技产业中心青岛董家口一期项目董家口港区港润大道以东、纬十四路以北.pdf VIP
- 【高中物理】题型全总结(16专题),详细总结与归类!.pdf VIP
- 安徽师大附中2026届高二化学第一学期期末综合测试试题含答案.doc
- 化学元素读音及顺口溜大全.doc VIP
原创力文档

文档评论(0)