数据分析方法1.pptx

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析方法1要点

统计基本概念回顾;现实中的随机性和规律性;现实中的随机性和规律性;概率和机会;有些概率是无法精确推断的;有些概率是可以估计的;变量;变量;数据;数据;统计和计算机 ;统计软件;统计软件;统计软件;统计软件;统计软件;统计软件;统计软件;统计软件;想想看;数据的收集;二手数据;第一手数据;观测数据和试验数据;试验数据有助于找出必要的因果关系;总体和样本;总体和样本 ;总体和样本 ;随机样本;随机样本;随机样本;方便样本; 在其他问题中,也有使用方便样本的情况。比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据;这些数据并不是整个人群中采集的随机样本;它们可能只是医院中的病人记录中得到的。 在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的观点。 ;误差 ;抽样调查的一些常用方法 ;一些抽样方法 ;一些抽样方法 ;一些抽样方法 ;一些抽样方法 ;抽样方法的选择不能一概而论;不仅抽样方法,而且问卷设计、调查过程等,均可能是致命的;计算机中常用的数据形式 ;思考;数据的描述;直方图 ;盒型图;第三四分位点;茎叶图 ; The decimal point is 1 digit(s) to the right of the | 2 | 2 2 | 3 | 44 3 | 789999999 4 | 000001112333344444 4 | 55555677789999 5 | 000011111112223333333344444 5 | 5555666666777888889999 6 | 000111111112222222333444444 6 | 55555566678888888899999 7 | 0000000111123333 7 | 555666677888999999 8 | 000222233344 8 | 5566899 9 | 22 9 | 5;散点图;定性变量的点图;饼图;条形图;为了综合,下面看一个城市地税例子。 例3.4 (数据TaxF.txt)这是某地区某月的税收抽样数据,有三个变量:总收入(单位:元),总纳税额(单位:元)及注册类型代码。图3.8 (a) 显示了总收入的直方图,显然,绝大部分的总收入都很小,以至于不用纳税。图3.8 (b) 为总收入和纳税额的散点图,看来收入越多,纳税越多。图3.8 (c) 为饼图,描述属于不同注册类型代码的比例。而图3.8 (d) 为衡量贫富差距的Lorenz 曲线,Lorenz曲线越接近对角线,则收入差距越小。反之,当曲线下凸得越厉害,收入差距越大。基尼系数(Gini Index)就是由Lornez曲线和对角线中间的面积占这三角形面积的比定义的。这四个图是由下面的(包括读取数据)R代码(而图(d) 的绘制使用了自编的同时可以计算基尼系数的函数gini())完成的: ;汇总统计量或概括统计量(summary statistic) ;汇总统计量(位置);汇总统计量(尺度)(scale statistic);两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半 ;数据的标准得分 (standard score) ;数据的标准得分 (standard score) ;思考

您可能关注的文档

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档