中国工业企业数据库与Stata简介教程.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国工业企业数据库与Stata简介教程

4.5 数据的合并 若新数据文件与原数据文件对应着同样的观测,但变量不全一样,则使用merge命令: merge 1:1 [varlist] using filename 其中filename是新数据文件的文件名,varlist是合并的依据,varlist(可以不止一个变量)取值一样的观测视为同一个观测。在合并之前,原数据文件和新数据文件都要先按照varlist排序。如果除了varlist外,原数据文件和新数据文件还有一部分变量是相同的。对这部分变量,merge命令有两个常用的选项。 4.5 数据的合并 merge 1:1 [varlist] using filename, update 将原数据文件中的缺失值替换成新数据文件中的相应值(前提是后者不缺失)。 merge 1:1 [varlist] using filename, update replace将原数据文件中的变量值替换成新数据文件中的相应值(前提是两者不一样)。 在这两种情形下,merge自动生成一个指示变量_merge。该变量的不同取值,代表了合并的不同情形。但一般会连续进行几次merge操作,所以在完成一次merge后应马上使用 drop _merge 指令将其去掉。 4.6 变量类型转换 Stata通常把变量划分为三类:数值型,字符型和日期型 字符型变量之间不能进行数值计算,所以如果对字符型变量进行数值计算,Stata则会提醒出现系统错误,这时必须将字符型变量转化成数值型变量,才能进行正确的计算。字符型变量转化成数值型变量命令: destring [varlist] , {generate(newvarlist)|replace} [options] 这个命令语句中,varlist是进行数据转化的变量名称,generate (newvarlist) | replace表示生成新的变量或者替换原来的变量,options的具体内容如表2.3所示。 4.6 变量类型转换 比如:destring b10,gen(B10) ignore(“$”) destring b10,gen(B10) force 数值型变量转化为字符型变量: tostring [varlist], [generate (newvarlist) | replace] [options] 4.7 描述统计 describe命令可以描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型,标签(label)等。 如果数据文件不是很大,可以直接在Stata Results中显示数据,使用如下命令: list [varlist] [if] [in][, options] 其中,varlist 是变量列表(即多个变量,如变量 1、变量 2 直至变量 n),此处命令置于方括号中,说明变量列表可有可无。如果 varlist 省略,则默认命令作用的对象为数据库中所有变量。if 和 in 均为可选条件。最后的 options 为可选项,在写命令时要置于逗号后。 4.7 描述统计 summarize 命令: summarize [varlist] [weight] [if] [in] [,detail] summarize可以提供varlist指定变量(可以不止一个)的如下统计量:Percentiles(分位数), Largest(四个最大的数),Smallest(四个最小的数),Mean(均值),Variance(方差),Std. Dev.(标准差),Skewness(偏度), Kurtosis(峰度). 比如:su mpg weight if foreign==1 4.7 描述统计 tabstat命令 tabstat varlist [weight] [if] [in] [, stats(statname [...]) ] tabstat提供[, stats(statname [...]) ]指定的统计量,可供选择的有mean,count(非缺失观测值个数),sum,max,min,range(最大值-最小值),sd,var,cv(变易系数),skewness(偏度),kurtosis(峰度),median(中位数),p1(1%分位数,类似地有p5, p25, p50, p75, p95。 比如,想知道变量price在整个样本的均值和方差,可使用如下命令: tabstat price , stats(mean var) 4.8 画图 (1)Stata提供了非常强大的画图功能。画图与描述统计一样,都是要揭示单个变量的分布或多个变

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档