数据分析讲义File-中国人民大学农业与农村发展学院网络教学系统.DOCVIP

数据分析讲义File-中国人民大学农业与农村发展学院网络教学系统.DOC

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析讲义File-中国人民大学农业与农村发展学院网络教学系统

数据分析 陈传波 中国人民大学 二O一二年十月 一、何谓数据与数据分析 人类对自己周围的一切事物都充满了好奇,孜孜不倦地探索和理解着这个神奇的世界。可以说,人类的认识是一个逐步深化的过程。首先是概念的辨识,从纷纭复杂的大千世界中抽离出一些关键的概念,比如性别是一个概念,人只有到了一定年龄才会产生性别意识,类似地,只有当一个概念变得敏感重要起来时才会进入人们的日常词汇。再如收入也是一个概念,文化程度是另一个概念。 我们往往把这些概念用一些简单的符号x(或sex)、y(或wage)、z(或education)来表示并称之为变量。我们所生活的世界是一个分类无比细致的世界,是一个概念(变量)多得超乎想象的世界。有一种说法很有道理:即一个人的知识丰富程度很大程度上取决于他掌握的概念多寡。 但是仅有一个概念仍然是远远不够的,人们希望能够对概念有更深入的把握,而把握概念的关键是搞清楚概念的外延和内涵。在此基础上,人们希望概念能进一步被量化,比如性别分为男或女,工资收入有800、1000、10000元的区别等,教育有文盲到博士的不同层次。用符号来表示,即为变量的不同取值,如我们用sex=1表示男,sex=0表示女;用education=3表示初中教育程度,wage=10000表示年薪1万元。 当我们通过调查等手段收集不同个体的各种特征时,就得到一个样本,比如调查1万个人的性别、教育和收入后,就有了一个数据集(样本量为1万)。如果我们一个样本一个样本来看这些数据,并不能让我们得到多少有价值的结论,反而只会令我们很快开始感到枯燥疲倦。要得到一些有价值的看法,就离不开对数据的描述性分析,比如:样本中有70%的女性;大学毕业生占10%,5%是文盲。平均工资收入是1500元/月,最高的前20%人的收入是最低的20%人收入的5倍。要得到这样的结论,就必然要对数据进行分析。 数据分析的第一步是对单个变量的描述,主要用到均值、中值、众数等指标,中值是指将所有数据按从小到大排列,取正中间的那一个值;众数是出现频次最高的那个数。通常对连续变量的描述还会用到分布,如均匀分布、正态分布、指数分布。 有了不同的变量,也有了对单个变量的认识,我们就会进一步希望建立起这些变量之间的相互关系。这种相互关系有助于深化认识。比如将性别与行业联系起来,可能得到这样的结论:建筑业中的工人95%是男性,家政服务业中99%是女性,但家政服务公司的老板80%是男性。 再如我们将教育与职业联系起来,可能得到如下结论:有10%的工人上过大学教育,而上过大学的农民只占农民总数的1%;将教育与工资收入联系起来,可能得到:刚毕业大学生的平均起薪是1000元,而农民工的平均工资达到1500元,从起薪来看,读大学不如当农民工。 绝大多数情形下,所谓的因变量是哪种我们希望改变,使他越来越多越来越好的目标,比如学生希望自己的成绩越高越好;希望自己将来的收入越来越高,希望全家人身体越来越健康等。那么考试分数、收入、健康水平就成为很多研究关注的核心因变量。我们这里以收入为例,大家可以将收入替换成其他的和你论文相关的东西,如公司的业绩,地方的农业产值等。另一方面,有些事是我们不希望他发生,希望这个值越小越好,比如收入差距、社会不公、环境污染程度、疾病发生率、车祸发生率、歧视的程度等,这构成另一大类研究主题。 上述变量之所以会成为目标变量,是因为我们很难直接对改变他操控他,需要通过其他手段来达到目标。比如我们想提高收入,那么就要先接受教育,要接受高等教育,就要先有个高的考分。要避免车祸,就要禁止醉酒驾车,要让人们少喝酒抽烟,可能就要提高烟酒的税收。但是究竟这些因果关系是否存在?如果存在,相互之间有多大的定量关系?我的努力是否值得?假如学习成绩完全凭老师的好恶来给定,那我的最佳策略就不是天天到图书馆去学习,而是去讨好老师。 在探索变量相互关系的过程中,函数是一个核心,比如Y=800+50X,其中Y表示收入,X表示受教育水平;这个式子表示,每多上一年学,可以多增加50元钱。可见函数本质上是一种对应关系,它把两个或多个变量联系起来,使我们可以由此及彼,通过操控一些可控的变量来对不可控或难以直接操控的变量(往往目标)施加影响。比如未来的高工资收入是我们的目标,但我们无法现在直接改变未来收入的大小。现在所能做的,可以操控的只能是提高自己的技能和教育水平,上学是要付出成本的,因此我们就想知道上完大学,可能比不上大学多拿到多少钱?初中毕业就去打工还是上完高中再去,对将来收入有什么样的影响?要回答这样的问题,显然需要对教育与回报之间的定量关系有深入认识。 另外,对于哪些我们无能为力,天生无法改变的事情,比如性别所导致的收入差异,我们也要问是否存在显著差异?因为我们进行比较的时候,通常是用两个平均值来比较,所以这里的显著通

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档