Stata的数据处理.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.3数据的整理 ③变量foreign为分类变量,0代表国产,1代表进口,为了便于观察,为0和1添加标签,具体命令为: label define foreignlabel 0 “Domestic” 1 “Foreign” label values foreign foreignlabel label define表示定义标签的内容,foreignlabel表示标签的名称,0 “Domestic” 1 “Foreign”表示定义的规则,数字0的标签是Domestic,数字1的标签是Foreign。 label values表示将定义的标签与变量结合的命令,所要结合的变量为foreign,结合的标签为foreignlabel。 标签添加完成以后,可以通过label dir命令,查看已经建立标签的相关内容。 2.3数据的整理 (2)为了处理数据的方便,有时需要对数据进行排序处理,排序的命令有主要有两个,一个是sort命令,一个是gsort命令。 sort命令的基本语句是: sort varlist [in] [, stable] 在这个命令语句中,sort是基本命令,varlist代表将要进行排序的变量名称,[in]代表排序的范围,[, stable]的含义是如果两个观测值相同,其顺序保持与原数据相同。 gsort命令的基本语句是: gsort [+|-] varname [[+|-] varname ...] [, generate(newvar) mfirst] 其中需要说明的内容有两点:一是[+]表示按升序排列,这也是Stata默认的排列方式,[-]表示按降序排列;二是generate(newvar)表示排序之后生成新的变量,mfirst表示将缺失值排在最前面。 将usaauto数据文件中的观测值按变量price由小到大排列,这个操作可以用sort命令完成,具体操作如下: sort price 当然也可以用gsort命令完成,具体操作如下: gsort + price 2.3数据的整理 2.3.2数据的拆分 (1)数据的横向拆分。原始数据有时包含过多的变量,但在实际应用中可能根据需要将原始数据拆分为不同的数据表,这时就要实现数据的横向拆分。数据的横向拆分用到的两个命令为drop和keep,下面做一下详细的讲解。 drop命令是用来删除某些变量和观测值的,基本命令如下: drop varlist [if] [in] keep命令是用来保留某些变量和观测值的,基本命令如下: keep varlist [if] [in] 2.3数据的整理 water数据文件包含四个变量,分别是year、capital、production、labor,将water数据文件拆分为两个数据文件,一个数据文件包含year和production两个变量,命名为wateroutput,一个数据文件包含year、capital和labor三个变量,命名为waterinput。这个操作的具体命令如下: use c:\data\water,clear drop capital labor save c:\data\wateroutput, replace 以上命令,第一个命令实现了原数据文件的打开,第二个命令删除了变量capital和labor,第三个命令实现了存储,新文件的名字为wateroutput,并用replace命令替换了原有数据。 2.3数据的整理 use c:\data\water,clear keep year capital labor save c:\data\waterinput, replace 以上命令,第一个命令实现了原数据文件的打开,第二个命令保留了变量capital和labor,第三个命令实现了存储,新文件的名字为waterinput,并用replace命令替换了原有数据。 2.3数据的整理 (2)数据的纵向拆分。原始数据有时包含过多的样本观测值,但在实际应用中可能根据需要将其按某种特征拆分为不同的数据表,这是就要实现数据的纵向拆分。数据的纵向拆分用到的主要命令还是drop和keep。 例如将usaauto数据文件拆分为两个数据文件,一个数据文件叫domesticauto,只包含国产车的相关内容,一个数据文件叫foreignauto,只包含进口车的相关内容,具体操作如下: use c:\data\usaauto,clear drop if foreign==1 save c:\data\domesticauto, replace 以上命令完成了第一个数据文件的建立,第一个命令完成了原始数据文件的打开,第二个命令删除foreign变量为1的数据,第三个命令存储新的数据文件,名称为domesticauto,并用replace命令替

文档评论(0)

wuyoujun92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档