数据分析与筛选数据分析筛选.doc

下载文档 降价啦

56
0
约7千字
约 8页
2017-04-19 发布于贵州
举报
版权申诉
保障服务

数据分析与筛选数据分析筛选.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

数据分析与筛选数据分析是指用适当的HYPERLINK /view/1379337.htm统计方法对收集来的大量第一手资料和HYPERLINK /view/807771.htm第二手资料进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值，是实验、测量、观察、调查等的结果，常以数量的形式给出。一：分析方法列表法：将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系；此外还要求在标题栏中注明物理量名称、符号、数量级和单位等；根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。作图法：作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果（如直线的斜率和截距值等），读出没有进行观测的对应点（内插法），或在一定条件下从图线的延伸部分读到测量范围以外的对应点（外推法）。此外，还可以把某些复杂的函数关系，通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为，取对数后得到，若用半对数坐标纸，以lgR为纵轴，以1/T为横轴画图，则为一条直线。二：数学建模中的数据分析 2.1.基本概率分布在数学建模中对数据进行分析时通常要考虑数据的概率分布情况，这样可以更好的了解数据总体的分布情况，以及分布是否稳定等一些数据的相关特征，其中常用的概率分布有：正态分布：密度函数：分布函数为：：若随机变量X1,X2,X3,.......Xn相互独立，都服从标准正态分布N(0,1),则随机变量是服从自由度n的分布，记Y~t(n)。服从自由度为n的t分布，记为T~t(n)。 F分布F(n1,n2) 若X~,且相互独立，则随机变量服从自由度为（n1,n2）的F分布，记为F~F(n1,n2)。在对随机现象的观察和研究中，人们发现有许多随机变量，它们是由大量的相互独立的随机因素的综合影响而形成的，而其中每个因素在总的影响中所起的作用又很小，且各因素的作用还是相对均匀的，则这种随机变量往往服从或近似服从正态分布。数据分析在生活中的运用非常广泛，最住要的体现是在销售利益、性能测试等的方面。下面是数学建模中常用的数据分析类型。 2.2.异常数据的挖掘和处理[1 ] 在预测与决策时，经常需要对所要研究的对象进行分析和收集数据，从大量的统计数据中找规律，而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现，统计来的数据是按照某一规律且起伏并不是很大，但其中都可能混有“异常数据”，这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的，在分析过程中应剔除的，但有些数据非任何统计错误所致不能简单地剔除，否则可能导致重要的隐藏信息丢失[2，特别有些异常数据非常有价值，若剔除则可能影响到结论的科学性。因此，对于异常数据的挖掘及处理(利用)是值得研究的问题。 ] 异常数据的挖掘方法所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值，挖掘过??实际上是识别过程，可以用以下几种方法进行挖掘: 3σ检测法[2 ] 一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列)，都分布在其均值周围，标准差σ能反映其离散程度。统计数据可以是来自某一总体的样本。如果是一般总体，可以由概率统计中的切贝谢夫不等式知道，对于任意的0ε，有：特别地有，即统计数据与其均值的偏差超过3σ 比例不超过1/9则由不等式，即在正态分布下统计数据与平均值的离差大于3的概率仅为0.27%，所以可将那3σ 些有均值之差的绝对值超过3σ的统计数据视为异常数据。根据概率论中的中心极限定理，因此3σ检测法在实际中比较常用。当然它的局限性是只适用于单维异常数据的挖掘。 2.3利用聚类分析法对数据处理聚类分析又称群分析，是研究分类问题的一种多元统计方法。在聚类分析的过程中，将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类，常用的距离有欧氏距离、马氏距离、兰氏距离等，马氏距离可以排除指标之间相关性的干扰且不受量纲的影响，最为实用。根据聚类的结果，距离较小或相似系数大的可以聚为一类，但最终聚成几类，并没有严格的限制。如果存在几个样品，聚合成哪一类都不合适，或与其它样品的距离都比较远，那么就可断定这些样品数据为异常数据。 1、数据在聚类分析之前要进行数据的变

您可能关注的文档

最近下载

文档评论（0）

zyongwxiaj8 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 对外合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧！本网站所有资料为用户分享上传，若发现您的权利被侵害，请联系24小时智能客服，如遇紧急情况请联系侵权客服QQ：2885784724（客服上班时间为9:00-18:30）；若您有其他疑问或建议，可点击此处联系我们，上传者QQ群:751299218

公安局备案号：51011502000106 | 工信部备案号：蜀ICP备08101938号-1 | ICP经营许可证/EDI许可证：川B2-20180569 | 公司营业执照 | 出版物经营许可证：成新出发高新字第046号
© 2010-2024 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992