第二章 数据管理 _Stata统计分析与应用PPT.pptVIP

第二章 数据管理 _Stata统计分析与应用PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 数据管理 _Stata统计分析与应用PPT

2.9.3生成分类变量 【例2.10】为了说明recode的使用,我们使用表2-21所示的数据,完成如下任务: (1)改变变量x的赋值,将1变为2,保持其他赋值不变,并将新的变量保存为nx。 (2)改变x1的赋值,将1改为2,将2改为1, 并将新的变量保存为nx1。 (3)改变x2的赋值,由1和2变为1,将3改为2,将4到7改为3并将新的结果保存在nx2。 表2-21 recode演示数据集 x x1 x2 x3 1 2 1 8 2 1 2 1 3 2 1 2 4 3 2 1 5 4 3 2 6 5 4 3 7 6 5 4 8 7 6 5 1 8 7 6 2 1 8 7 2.9.3生成分类变量 使用autocode()、recode()和group()三个函数生成分类变量 autocode()、recode()和group()是常用的用于生成分类变量的函数,它们的含义如下所示: autocode(x,n,xmin,xmax)——表示根据x值形成分类变量:将x的值域(即最小值xmin至最大值xmax)分成等距的n份,并求出各x值所在区间的上限。 group(x) ——建立一个分类变量,将按排序后的数据分为尽量等规模的x个子样本。 recode(x,x1 ,x2 ,…,xn ) ——当x缺失时求得缺失值,当xx1时求得x1,当x x2时求得x2。 【例2.11】仍然使用就业调查数据集wage.dta,这个数据集主要变量的情况是:wage表示工资, educ表示教育程度, exper表示工作经验即工作的年数,tenure表示在当前岗位上工作的年数,以上变量都是以年来计量的。 其中,变量exper的取值区间从1到51,本例要求分别使用autocode()、recode()和group()三个函数变量将exper转换为一个分为5组的分类变量。具体的三个要求如下。 (1)利用autocode()函数将exper分成九组,各组相等间隔为10年 (2)依据观测案例的数目平均分成5组,各个组别在目标变量的排列顺序下包含有相同数目的观测案例 (3)要求将exper分成如下区间所定义的5组:[1,5],[6,15],[16,25],[26,40],[41,51]。 2.10数据的整理 2.10.1数据的横向合并 merge [varlist] using filename [filename …] [,options] merge(newvar):自动生成合并吻合度的记录变量,默认为merge,数值为: 0不吻合,只在内存内数据存在的个案 1不吻合,只在内存外数据存在的个案 2吻合,内存内和内存外数据皆存在的个案。 update:内存内的缺失数值可以被内存外数据的相应数值覆盖。 replace:内存内的非缺失数值可以被内存外数据的相应数值覆盖。 nokeep:去掉内存外数据的非吻合个案,等同于drop if merge==2。 nosummary 合并两个以上数据时,不保留记录变量(即merge) 2.10数据的整理 【例2.12】现有两个关于汽车市场的调查数据文件,一个是汽车技术层面的数据autotech.dta,见表2-24,其中的变量情况是:make是字符型变量,表明生产厂商,mpg是行驶里程(英里),weight是车身重量(吨),length是车身长度(米);另一个数据是汽车成本层面的数据autocost.dta,见表2-25,其中的变量情况是:make是字符型变量,表明生产厂商,price是汽车的价格(万元),rep78是年度修理次数。现在要求将make作为索引变量将两个数据横向合并在一起。 【2.13】有如表2-26和表2-27所示的两个数据集,其中original.dta是主数据,updates.dta是调用数据集,请利用merge将两数据合并在一起,要求如果出现主数据和调用数据不一致的地方则依据调用数据进行修改。 2.10.2数据的纵向合并 append using filename [,options] keep(varlist):varlist是内存外数据指定保留的变量;当内存外变量数目多余内存内数据的时候,可以只保留内存内的变量。 nolabel:不拷贝内存外数据的数值标签,即合并后的数据使用内存内数据的数据标签。 nonotes:不拷贝内存外数据的数据说明 【例2.14】有两个数据文件odd.dta和even.dta,利用append命令将两者合并。数据的内容将在执行命令的过程中以list命令输出结果的形式给出。 【例2.15】数据集auto.dta是Stata系统自带的关于1978年汽车市场的一个调查数据,该数据集共有74个观测值,12个变量。变本例演示如何利用append命令完成如下任务:将auto.dta拆分成两个

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档