数据分析讲义File-中国人民大学农业与农村发展学院网络教学系统.DOCVIP

下载本文档

15
0
约1.43万字
约 24页
2018-04-24 发布于天津
举报
版权申诉

数据分析讲义File-中国人民大学农业与农村发展学院网络教学系统.DOC

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析讲义File-中国人民大学农业与农村发展学院网络教学系统

数据分析陈传波中国人民大学二O一二年十月一、何谓数据与数据分析人类对自己周围的一切事物都充满了好奇，孜孜不倦地探索和理解着这个神奇的世界。可以说，人类的认识是一个逐步深化的过程。首先是概念的辨识，从纷纭复杂的大千世界中抽离出一些关键的概念，比如性别是一个概念，人只有到了一定年龄才会产生性别意识，类似地，只有当一个概念变得敏感重要起来时才会进入人们的日常词汇。再如收入也是一个概念，文化程度是另一个概念。我们往往把这些概念用一些简单的符号x（或sex）、y(或wage)、z(或education)来表示并称之为变量。我们所生活的世界是一个分类无比细致的世界，是一个概念（变量）多得超乎想象的世界。有一种说法很有道理：即一个人的知识丰富程度很大程度上取决于他掌握的概念多寡。但是仅有一个概念仍然是远远不够的，人们希望能够对概念有更深入的把握，而把握概念的关键是搞清楚概念的外延和内涵。在此基础上，人们希望概念能进一步被量化，比如性别分为男或女，工资收入有800、1000、10000元的区别等，教育有文盲到博士的不同层次。用符号来表示，即为变量的不同取值，如我们用sex=1表示男，sex=0表示女；用education=3表示初中教育程度，wage=10000表示年薪1万元。当我们通过调查等手段收集不同个体的各种特征时，就得到一个样本，比如调查1万个人的性别、教育和收入后，就有了一个数据集（样本量为1万）。如果我们一个样本一个样本来看这些数据，并不能让我们得到多少有价值的结论，反而只会令我们很快开始感到枯燥疲倦。要得到一些有价值的看法，就离不开对数据的描述性分析，比如：样本中有70%的女性；大学毕业生占10%，5%是文盲。平均工资收入是1500元/月，最高的前20%人的收入是最低的20%人收入的5倍。要得到这样的结论，就必然要对数据进行分析。数据分析的第一步是对单个变量的描述，主要用到均值、中值、众数等指标，中值是指将所有数据按从小到大排列，取正中间的那一个值；众数是出现频次最高的那个数。通常对连续变量的描述还会用到分布，如均匀分布、正态分布、指数分布。有了不同的变量，也有了对单个变量的认识，我们就会进一步希望建立起这些变量之间的相互关系。这种相互关系有助于深化认识。比如将性别与行业联系起来，可能得到这样的结论：建筑业中的工人95%是男性，家政服务业中99%是女性，但家政服务公司的老板80%是男性。再如我们将教育与职业联系起来，可能得到如下结论：有10%的工人上过大学教育，而上过大学的农民只占农民总数的1%；将教育与工资收入联系起来，可能得到：刚毕业大学生的平均起薪是1000元，而农民工的平均工资达到1500元，从起薪来看，读大学不如当农民工。绝大多数情形下，所谓的因变量是哪种我们希望改变，使他越来越多越来越好的目标，比如学生希望自己的成绩越高越好；希望自己将来的收入越来越高，希望全家人身体越来越健康等。那么考试分数、收入、健康水平就成为很多研究关注的核心因变量。我们这里以收入为例，大家可以将收入替换成其他的和你论文相关的东西，如公司的业绩，地方的农业产值等。另一方面，有些事是我们不希望他发生，希望这个值越小越好，比如收入差距、社会不公、环境污染程度、疾病发生率、车祸发生率、歧视的程度等，这构成另一大类研究主题。上述变量之所以会成为目标变量，是因为我们很难直接对改变他操控他，需要通过其他手段来达到目标。比如我们想提高收入，那么就要先接受教育，要接受高等教育，就要先有个高的考分。要避免车祸，就要禁止醉酒驾车，要让人们少喝酒抽烟，可能就要提高烟酒的税收。但是究竟这些因果关系是否存在？如果存在，相互之间有多大的定量关系？我的努力是否值得？假如学习成绩完全凭老师的好恶来给定，那我的最佳策略就不是天天到图书馆去学习，而是去讨好老师。在探索变量相互关系的过程中，函数是一个核心，比如Y=800+50X，其中Y表示收入，X表示受教育水平；这个式子表示，每多上一年学，可以多增加50元钱。可见函数本质上是一种对应关系，它把两个或多个变量联系起来，使我们可以由此及彼，通过操控一些可控的变量来对不可控或难以直接操控的变量（往往目标）施加影响。比如未来的高工资收入是我们的目标，但我们无法现在直接改变未来收入的大小。现在所能做的，可以操控的只能是提高自己的技能和教育水平，上学是要付出成本的，因此我们就想知道上完大学，可能比不上大学多拿到多少钱？初中毕业就去打工还是上完高中再去，对将来收入有什么样的影响？要回答这样的问题，显然需要对教育与回报之间的定量关系有深入认识。另外，对于哪些我们无能为力，天生无法改变的事情，比如性别所导致的收入差异，我们也要问是否存在显著差异？因为我们进行比较的时候，通常是用两个平均值来比较，所以这里的显著通