Stata的数据处理.ppt

下载文档

10
0
约1.31万字
约 47页
2017-07-04 发布于四川
举报
版权申诉
保障服务

Stata的数据处理.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2.3数据的整理 ③变量foreign为分类变量，0代表国产，1代表进口，为了便于观察，为0和1添加标签，具体命令为： label define foreignlabel 0 “Domestic” 1 “Foreign” label values foreign foreignlabel label define表示定义标签的内容，foreignlabel表示标签的名称，0 “Domestic” 1 “Foreign”表示定义的规则，数字0的标签是Domestic，数字1的标签是Foreign。 label values表示将定义的标签与变量结合的命令，所要结合的变量为foreign，结合的标签为foreignlabel。标签添加完成以后，可以通过label dir命令，查看已经建立标签的相关内容。 2.3数据的整理（2）为了处理数据的方便，有时需要对数据进行排序处理，排序的命令有主要有两个，一个是sort命令，一个是gsort命令。 sort命令的基本语句是： sort varlist [in] [, stable] 在这个命令语句中，sort是基本命令，varlist代表将要进行排序的变量名称，[in]代表排序的范围，[, stable]的含义是如果两个观测值相同，其顺序保持与原数据相同。 gsort命令的基本语句是： gsort [+|-] varname [[+|-] varname ...] [, generate(newvar) mfirst] 其中需要说明的内容有两点：一是[+]表示按升序排列，这也是Stata默认的排列方式，[-]表示按降序排列；二是generate(newvar)表示排序之后生成新的变量，mfirst表示将缺失值排在最前面。将usaauto数据文件中的观测值按变量price由小到大排列，这个操作可以用sort命令完成，具体操作如下： sort price 当然也可以用gsort命令完成，具体操作如下： gsort + price 2.3数据的整理 2.3.2数据的拆分（1）数据的横向拆分。原始数据有时包含过多的变量，但在实际应用中可能根据需要将原始数据拆分为不同的数据表，这时就要实现数据的横向拆分。数据的横向拆分用到的两个命令为drop和keep，下面做一下详细的讲解。 drop命令是用来删除某些变量和观测值的，基本命令如下： drop varlist [if] [in] keep命令是用来保留某些变量和观测值的，基本命令如下： keep varlist [if] [in] 2.3数据的整理 water数据文件包含四个变量，分别是year、capital、production、labor，将water数据文件拆分为两个数据文件，一个数据文件包含year和production两个变量，命名为wateroutput，一个数据文件包含year、capital和labor三个变量，命名为waterinput。这个操作的具体命令如下： use c:\data\water,clear drop capital labor save c:\data\wateroutput, replace 以上命令，第一个命令实现了原数据文件的打开，第二个命令删除了变量capital和labor，第三个命令实现了存储，新文件的名字为wateroutput，并用replace命令替换了原有数据。 2.3数据的整理 use c:\data\water,clear keep year capital labor save c:\data\waterinput, replace 以上命令，第一个命令实现了原数据文件的打开，第二个命令保留了变量capital和labor，第三个命令实现了存储，新文件的名字为waterinput，并用replace命令替换了原有数据。 2.3数据的整理（2）数据的纵向拆分。原始数据有时包含过多的样本观测值，但在实际应用中可能根据需要将其按某种特征拆分为不同的数据表，这是就要实现数据的纵向拆分。数据的纵向拆分用到的主要命令还是drop和keep。例如将usaauto数据文件拆分为两个数据文件，一个数据文件叫domesticauto，只包含国产车的相关内容，一个数据文件叫foreignauto，只包含进口车的相关内容，具体操作如下： use c:\data\usaauto,clear drop if foreign==1 save c:\data\domesticauto, replace 以上命令完成了第一个数据文件的建立，第一个命令完成了原始数据文件的打开，第二个命令删除foreign变量为1的数据，第三个命令存储新的数据文件，名称为domesticauto，并用replace命令替