- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025/4/19试验优化技术1探索性数据分析简介ExploratoryDataAnalysis(EDA)探索性数据分析(EDA)是一个崭新的统计研究方向。近几十年来,已有多本关于EDA方面的著作和许多学术研究论文,实际应用也取得了明显成效。目前,探索性数据分析已得到统计学界的公认,是一个极有发展前途的新领域。DavidC.Hoaglin等著,陈忠琏等译.探索性数据分析.北京:中国统计出版社,1998
2025/4/19试验优化技术2一、探索性数据分析的主要特点研究从原始数据入手,完全以实际数据为依据传统的统计分析方法是先假定数据服从某种分布,如多数情况下假定数据服从正态分布,然后用适应这种分布的模型进行分析和预测。但客观实际的多数数据并不满足假定的理论分布(如正态分布),这样实际场合就会偏离严格假定所描述的理论模型,传统统计方法就可能表现很差,从而使其应用具有极大的局限性。EDA则不是从某种假定出发,而是完全从客观数据出发,从实际数据中去探索其内在的数据规律性。
2025/4/19试验优化技术3分析方法从实际出发,不以某种理论为依据传统的统计分析方法是以概率论为理论基础,对各种参数的估计、检验和预测给出具有一定精度的度量方法和度量值。EDA则以不完全正式的方法处理数据。在探索数据内在的数量特征、数量关系和数量变化时,什么方法可以达到这一目的就采用什么方法,灵活对待,灵活处理。方法的选择完全服从于数据的特点和研究的目的,并且更重视数据特征值的稳健耐抗性,而相对放松对概率理论和精确度的刻意追求。
2025/4/19试验优化技术4分析工具简单直观,更易于普及传统的统计分析方法应用的数学工具越来越深奥,统计研究也越来越理论化,这样就使应用的人越来越害怕统计。EDA提供多种多样丰富多彩的详细考察数据的方法。例如,它运用简单直观的茎叶图、箱线图、残差图、字母值、数据变换、中位数平滑等与传统统计方法截然不同的方法,使得具有一般数学知识的人就可以进行复杂的数据分析。这不仅极大地扩大了统计分析的用户群体,而且为统计思想注入了新的活力。
2025/4/19试验优化技术5耐抗性(Resistance)所谓耐抗性即对于数据的局部不良行为的非敏感性,它是EDA追求的主要目标之一。对于具有耐抗性的分析结果,当数据的一小部分被新的数据代替时,即使它们与原来的数值很不一样,分析结果也只会有轻微的改变。人们关注耐抗性,主要是因为“好”的数据也难免有差错甚至是重大差错,因此数据分析时要有防御大错的破坏性影响的措施。EDA是一种耐抗分析方法,其分析结果具有较强的耐抗性。中位数平滑是一种耐抗技术。中位数(Median)是高耐抗统计量,而样本均值不是。二、探索性数据分析的四大主题
2025/4/19试验优化技术62.残差(Residuals)残差是数据减去一个总括统计量或模型拟合值以后的残余部分,即:残差=数据-拟合。例如:用若干对(xi,yi)拟合,则残差为。EDA认为,分析一组数据而不仔细考察残差是不完全的。EDA可以而且应该利用耐抗分析把数据中的主导行为与反常行为清楚地分离开。当数据的大部分遵从一致的模式,这个模式就决定一个耐抗拟合。耐抗残差包含对于这个模式的剧烈偏离及机遇起伏。
2025/4/19试验优化技术7重新表达(Re-expression)重新表达即找到合适的尺度或数据表达方式以更利于简化分析。EDA强调,要尽早考虑数据的原始尺度是否合适的问题。如果尺度不合适,重新表达成另一个尺度可能更有助于促进对称性、变异恒定性、关系直线性或效应的可加性等。重新表达亦称变换(Transformation),一批数据x1,x2,…,xn的变换是一个函数T,它把每个xi用新值T(xi)来代替,使得变换后的数据值是T(x1),T(x2),…,T(xn)。
2025/4/19试验优化技术8启示(Revelation)EDA强调启示。所谓启示就是通过EDA新的图解显示和各种分析显示,发现规律,得到启迪,满足分析者的需要:看出数据、拟合、诊断量度以及残差等行为,从而抓住意想不到的特点以及常见的一贯行为。
2025/4/19试验优化技术9三、探索性数据分析的常用术语批即由n个观测值x1,x2,…,xn组成的数据组。在传统统计中,这个数据组常称为样本,但批只是原始数据组,没有像对样本那样的任何假设,如数据间独立、服从正态分布等。单击此处添加小标题1单击此处添加小标题注意:在传统统计中,常用的样本均值、方差等统计量是不耐抗的,即使只有一个异常数据也会对它们产生巨大的有害影响。而在EDA中,为了探索性目的,用基于排序和计数的简单的总括统计量,如中
您可能关注的文档
- 实验探究加速度与质量和外力关系.pptx
- 大红酸枝办公桌如何才能即雅致又实用.pptx
- 孤独症教师培训.pptx
- 大中型工业企业创新调查方案.pptx
- 大学生如何立业成才.pptx
- 对外汉语常见难点.pptx
- 市场调查资料的收集方法.pptx
- 存储过程和函数.pptx
- 施工日志及安全日志.pptx
- 数字化学习系统.pptx
- 深度解析(2026)《ISO 22002-12025食品安全前提方案—第1部分:食品制造》.pptx
- 深度解析(2026)《ISO 22002-52025食品安全前提方案—第5部分:运输和储存》.pptx
- 深度解析(2026)《ISO 22002-42025 食品安全前提方案 — 第4部分:食品包装制造》.pptx
- 徒步活动策划方案.doc
- 深度解析(2026)《ISO 22002-62025食品安全前提方案—第6部分:饲料及动物食品生产》.pptx
- 2026年新版郯城期末真题卷.doc
- 深度解析(2026)《ISO 22476-72012岩土工程勘察与测试 — 现场测试 — 第7部分:钻孔千斤顶试验》.pptx
- 深度解析(2026)《ISO 22090-22014 船舶与海洋技术 — 航向传送装置(THD) — 第2部分:地磁原理》.pptx
- 深度解析(2026)《ISO 23584-22012 光学和光子学 — 参考字典规范 — 第 2 部分:类与特性定义》:构建智能制造数据基石的专家视角与未来展望.pptx
- 深度解析(2026)《ISO 22932-92025 Mining — Vocabulary — Part 9 Drainage》:构建未来矿山“水脉”治理与可持续发展的新语言体系.pptx
最近下载
- 公安机关刑事案件办案流程全解析.pptx VIP
- 默纳克7000学习资料.pdf VIP
- 大学PLC课程设计 -自动旋转检测的PLC控制.docx VIP
- 图解《汉字演变五百例1—100》 .pdf VIP
- 2025农产品产地冷链集配中心建设规范.docx VIP
- 乐高-拼砌说明书71808, 凯的火系元素机甲, LEGO® NINJAGO®.pdf VIP
- 北京市东城区2022~2023八年级初二上学期期末数学试卷+答案.pdf VIP
- 国开(电大)《文论专题》形考作业1-4参考答案.pdf VIP
- 2023年临床营养支持理论考试试题及答案 .pdf VIP
- FXN3C型4400马力交流传动货运内燃机车介绍.pptx VIP
原创力文档


文档评论(0)