《智能检测技术》教学课件-第2章-1数据分析简介.pptxVIP

《智能检测技术》教学课件-第2章-1数据分析简介.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 2 章智能检测技术的基础理论本章主要内容2-1 数据分析简介2-2 常用数据统计分析方法2-3 机器学习方法2-1 数据分析简介什么是数据? 销售码洋结构比图形可以帮助我们将数据转换成信息数据分析的目的用统计分析方法对收集的大量数据的分析,提取价值信息、找到规律 或趋势,提供决策依据。数据分析目的:让数据说话,提供决策依据。数据的分类、流程和遵循的原则统计分析遵循的原则坚持用数据说话的基本观点。有目的地收集数据。掌握数据的来源。认真整理数据。按数据的性质一般可归纳为:定性数据。往往用于频数或频率分析。定量型数据。可以用数字量化的数值。按数据的来源可分为:人力资源数据;财务数据;营销数据;采购数据;仓储数据;生产数据;编辑数据。3数据录入处理统计分析流程42数据分析数据采集确定问题及其分析目标采用科学方法收集数据数据统计分析15考察数据时效性整理数据图表展现调研蓝图方案设计统计分析出具分析报告,提出解决意或建议定性数据分析是指对诸如词语、照片、观察结果之类的非数值型数据的分析数据分析类型整容前后对比照,整容让人变美。X1+X2+X3 …….+Xn样本平均值X = ——————————n(1)公式:假设我们有工资的如下值(以千美元为单位),按递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110。则均值计算如下:因此,均值为58 000美元。(2)平均收入,但是受到极值影响很大 例如,公司的平均薪水可能被少数几个高收入的经理显著推高;类似地,一个班的考试平均成绩可能被少数很低的成绩拉低一些。 我们可以使用截尾均值。截尾均值是丢弃高低极端值后的均值。例如,我们可以对工资的观测值排序,并且在计算均值之前去掉高端和低端的2%,但应避免在两端截去太多(如20%),因为这可能导致丢失有价值的信息。 定量分析:描述性统计分析 自一组数据中,可以摘要并且描述这份数据的集中和离散情形样本中位值数据分析类型~中位值是按照数据大小顺序排列位于中间的数值,中位值记为X若n为偶数,则取位于中间两个数值的平均值为中位值;(1)假设观测值为偶数个:我们有工资的如下值(以千美元为单位),按递增次序显示: 30,31,47,50,52,52,56,60,63,70,70,110。则中位数为54(2)假设观测值为奇数个:我们有工资的如下值(以千美元为单位),按递增次序显示: 30,31,47,50,52,53,56,63,70,70,110。则中位数为第6个数值 53样本极差样本极差表示一组数据分布的范围,指数据中最大值与最小值的差: R = Xmax - Xmin样本方差和样本标准偏差(1)方差公式:数值属性X的N个观测值x1,x2,…,xN的方差(variance)是:样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值,通常记为S2;样本方差的平方根S称作样本标准偏差,它与样本方差一样,是反映一组数据分散程度的特性值:x是观测的均值 标准差:σ是方差σ2的平方根。(2)例如序列:30,31,47,50,52,52,56,60,63,70,70,110σ2=112(302+362+472+…+1102)-582≈379.17 (3)重点: A、σ度量关于均值的发散,仅当选择均值作为中心度量时使用;低标准差意味数据观测趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域 B、仅当不存在发散时,即当所有的观测值都具有相同值时,σ=0;否则,σ0;标准偏差的物理意义协方差和相关系数(1)Pearson相关系数0|r|1表示存在不同程度线性相关:(2)相关系数r的取值范围:-1≤r≤1;3、直接绘制散点图,判断相关性 相关系数 0.8-1.0 极强相关0.6-0.8 强相关0.4-0.6 中等程度相关0.2-0.4 弱相关0.0-0.2 极弱相关或无相关协方差矩阵常用数据预处理方法归一化归一化处理的目的是是数据集中各数据向量具有相同的长度,一般为单位长度。其公式为:归一化处理能有效去除由于测量值大小不同所导致的数据集的方差,但是也可能会丢失重要的方差。 常用数据预处理方法中心化变换正规化处理中心化的目的是改变数据相对于坐标轴的位置。一般都是希望数据集的均值与坐标轴的原点重合。若xik表示第i个样本的第k个测量数据,很明显这个数据在矩阵中的第i行第k列。中心化变换就是从数据矩阵中的每一个元素中减去该元素所在列均值的运算:正规化处理是数据点布满数据空间,常用区间正规化处理。是以原始数据集中的各元素减去所在列的最小值,再除以该列的极差。该方法可以将量纲不同,范围不同的各种变量表达为值均在0~1范围内的数据。标准正态变量校正(SNV

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档