探索性数据分析培训课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.4 探索性 数据分析;探索性数据分析(Exploratary Data Analysis,简称EDA)的基本思想是: 从数据本身出发,不拘泥于模型的假设来探究数据分布的大致情况,也可以为进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础和减少盲目性。;; 得到数据后,可以通过图表和数据特征分析得到初步印象或初步结论—— 一、图表分析: 频数直方图、饼图、茎叶图、箱线图、交叉表等 二、数据特征分析: 集中趋势、离散趋势、分布形状;一、图表描述; 数据整理;对定量数据进行分组时,需要建立频数分布表,以便更有效地显示数据的特征和分布。 频数分布表示例如下:;2. 累积频数分布表;例1、2004年A题:奥运会临时超市网点设计;No;;3. 数据图形描述(分组后数据);;;4. 数据图形描述(未分组数据);;数据图形描述(未分组数据);;例2、下表给出了1982年全国28个省、市、自治区农民家庭收支情况(这里节选6个城市,全部数据见附1.),有六个指标,分析其数据为经济发展决策提供依据。;单位:元 Stem-and-Leaf Plot;单位:元 Stem-and-Leaf Plot;单变量定性数据的图表描述;多变量定性数据的图表描述;交叉表;二、数据的常见特征指标;1. 数据分布的集中趋势测度 ;(1) 数值平均数又称均值(Mean) ;简单算术平均数;加权算术平均数;(2)几何平均数(Geometric mean);要求:各观察值之间存在连乘积关系;(3) 调和平均数(Harmonic mean);例,某工厂本月购进材料三批,每批价格及采购金额资料如下表:;说明1:调和平均数是算术平均数的变形;数值平均数的优缺点:;位置平均数;(4) 中位数(Median);(5) 众数(Mode); 正态分布:众数位于峰值,即中心位置; 均匀分布:无众数。;(6) 分位数(quantile fractile );众数、中位数与均值的比较;中位数总是居于中间位置;众数、中位数与均值的比较;2. 数据分布的离散趋势测度 ;也称为内距或四分位差,是第一个四分位数(下四分位数Q1)与第三个四分位数(上四分位数Q3)的差,也就是75%百分位数与25%百分位数间的距离。它代表分布中间50%的距离。;是总体所有单位与其算术平均数的离差绝对值的算术平均数,用A.D.或M.D.表示。;对未经分组的数据资料,采用简单平均差; 方差是变量数列中各变量值与其算术平均数差的平方,记为σ2; 标准差(standard deviation),也称均方差(mean square error),是方差的平方根,故又称均方差或均方差根,其计量单位与平均数的计量单位相同,记为σ 。 ;对未经分组的数据资料,采用简单式;;也称标准化值,或z分数(z-score), 是变量值与其平均数的离差除以标准差后的值。 是对每个数据在该组数据中相对位置的测量。;又称变异系数、标准差系数,是一组数据的标准差与其对应的平均数之比,是测度数据离散程度的相对指标,记为C.V;是三阶中心矩除以标准差的三次方来度量偏斜程度。衡量分布偏斜方向和程度的测度,是次数分配的非对称程度,。 偏态通常分为两种:右偏(或正偏)与左偏(或负偏)。; 又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。。 峰度通常分为三种:正态峰度、尖顶峰度与平顶峰度。 峰度为3表示与正态分布相同,峰度大于3表示比正态分布陡峭,小于3表示比正态分布平坦;附1:1982年全国28个省、市、自治区农民家庭收支情况表;

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档