数据分析与筛选数据分析筛选.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析与筛选 数据分析是指用适当的HYPERLINK /view/1379337.htm统计方法对收集来的大量第一手资料和HYPERLINK /view/807771.htm第二手资料进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。 一:分析方法 列表法: 将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。 作图法: 作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。 二:数学建模中的数据分析 2.1.基本概率分布 在数学建模中对数据进行分析时通常要考虑数据的概率分布情况,这样可以更好的了解数据总体的分布情况,以及分布是否稳定等一些数据的相关特征,其中常用的概率分布有: 正态分布:密度函数: 分布函数为: :若随机变量X1,X2,X3,.......Xn相互独立,都服从标准正态分布N(0,1),则随机变量 是服从自由度n的分布,记Y~t(n)。 服从自由度为n的t分布,记为T~t(n)。 F分布F(n1,n2) 若X~,且相互独立,则随机变量 服从自由度为(n1,n2)的F分布,记为F~F(n1,n2)。 在对随机现象的观察和研究中,人们发现有许多随机变量,它们是由大量的相互独立的随机因素的综合影响而形成的,而其中每个因素在总的影响中所起的作用又很小,且各因素的作用还是相对均匀的,则这种随机变量往往服从或近似服从正态分布。 数据分析在生活中的运用非常广泛,最住要的体现是在销售利益、性能测试等的方面。下面是数学建模中常用的数据分析类型。 2.2.异常数据的挖掘和处理[1 ] 在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的,在分析过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重要的隐藏信息丢失[2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科学性。因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。 ] 异常数据的挖掘方法 所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值,挖掘过??实际上是识别过程,可以用以下几种方法进行挖掘: 3σ检测法[2 ] 一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列),都分布在其均值周围,标准差σ能反映其离散程度。统计数据可以是来自某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知道,对于任意的0ε,有: 特别地有,即统计数据与其均值的偏差超过3σ 比例不超过1/9则由不等式 ,即在正态分布下统计数据与平均值的离差大于3的概率仅为0.27%,所以可将那3σ 些有均值之差的绝对值超过3σ的统计数据视为异常数据。 根据概率论中的中心极限定理, 因此3σ检测法在实际中比较常用。当然它的局限性是只适用于单维异常数据的挖掘。 2.3利用聚类分析法对数据处理 聚类分析又称群分析,是研究分类问题的一种多元统计方法。在聚类分析的过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断定这些样品数据为异常数据。 1、数据在聚类分析之前要进行数据的变

文档评论(0)

zyongwxiaj8 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档