数据分析演示文稿.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 数据分析 数据的描述性分析即是从数据出发概括数据特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也是对数据进行进一步分析的基础。 §1 单样本数据 1、 一组单样本数据 ,样本数据个数称为样本容量, 1)样本平均数 2)样本方差 3)样本标准差 4)偏度 5)峰度 2、五数概括 1)中位数 2)最小数 3)最大数 4)极差 5) 分位数 6)上四分位数 7)下四分位数 8)极差 9)上下截断点 无数概括:最小数、下四分位数、中位数、上四分位数、最大数和在一起称为无数概括。 例:已知数据: 9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.33 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 计算:平均数,方差,中位数,四分位数;并判断是否有异常值。 解: 3、直方图: 直方图可以直观的观察数据的分布情况。 所谓直方图就是将数据按它们的取值范围划分为若干子区间,以每一个子区间为底,在它的上方作一个矩形,矩形的面积与位于该子区间内的数据个数成比例。这些矩形的全体构成了数据直方图。 方法:将数据范围分成若干自取件,一般是等间距的。考虑落入每个区间的频率。 绘制直方图的关键之处在于子区间的划分,我们将分别讨论两种情况:样本数据本身包含了子区间的划分或至少提供了划分的信息,另一种是样本数据只提供单纯的n个数字。 1、样本数据组提供了子区间的划分 例1 某市居民的月收入情况 21.2% 11.2% 22.8% 22.8% 15.4% 5.6% 1% 7000元以上 6000元~7000元 5000元~6000元 4000元~5000元 3000元~4000元 2000元~3000元 2000元以下 宽度为组距,高度为落入该区间的频率 2、样本数据组只提供了n个数据 此时对数据绘制直方图需要制图者自己选择与确定子区间的个数及如何划分,这两个因素将直接关系到直方图的形状。 这是仍旧需要对数据进行子区间,划分大部分采用均分的方式,区间的个数通常在6~20之间(也有8~15个),具体要分成多少个,要有实际问题确定。假设样本数据组要划分成k个子区间,则具体划分数据的原则是,设n个数据的最小值为a,最大值为b,则把 b -a 做为区间的长度。这种分法是比较常见的 。 三、 茎叶图 茎叶图是探索性数据分析时对数据的初步形象描绘,有点像直方图,但主要的差异在于茎叶图是用数据代替直方图中的矩形。这样既有了直观的图示,又对具体数据有大致了解。可以更细致的看出数据的分布结构。 茎叶图制作的第一步是将每一个数据分解为三个部分:茎、叶以及可忽略部分。一个数,从哪一位开始可以归属于可忽略部分,需要看研究的实际情况而定。 某班31名学生考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 87 89 89 89 90 91 91 92 100 茎叶图与直方图一样,都可以直观的看出数据分布的情况,但茎叶图用了所有数据,没有丢失信息。从图上大致可以看出数据是否对称,分散性如何,是否有异常值,数据中间是否有间隙等。利用茎叶图也很自然的给数据进行了排序。 数据分析中,常常要比较两组可比数据的分布趋向,背靠背茎叶图为此提供了方便。假如从某地区随机抽样男女居民各20名,对他们的月收入进行调查,得数据如下(单位为元): 男 803,659,571,778,492,295,345 673,388,580,708,433,301,193 435,560,767,678,288,477 女 680,792,583,434,425,186,288 379,444,556,471,671,536,333 422,236,195,345,389,400 这两组数据的茎叶图可以忽略个位数而得,被忽略的个位

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档