中国工业企业数据库与stata简介讲述.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.5 数据的合并 ? 数据文件的合并涉及两个数据文件:在 memory 中的和不 在 memory 中的。称前者为原数据文件( the master data ),后者为新数据文件( the using data )。数据文 件的合并有两种情形。 ? 若新数据文件与原数据文件的变量完全一样,此时新数据 文件相当于新的观测,使用 append 命令: ? append using filename ? 其中 filename 是新数据文件的文件名。 4.5 数据的合并 ? 若新数据文件与原数据文件对应着同样的观测,但变量不 全一样,则使用 merge 命令: ? merge 1:1 [varlist] using filename ? 其中 filename 是新数据文件的文件名, varlist 是合并的依 据, varlist (可以不止一个变量)取值一样的观测视为同 一个观测。在合并之前,原数据文件和新数据文件都要先 按照 varlist 排序。如果除了 varlist 外,原数据文件和新数 据文件还有一部分变量是相同的。对这部分变量, merge 命令有两个常用的选项。 4.5 数据的合并 ? merge 1:1 [varlist] using filename, update 将原数据文 件中的缺失值替换成新数据文件中的相应值(前提是后者 不缺失)。 ? merge 1:1 [varlist] using filename, update replace 将原 数据文件中的变量值替换成新数据文件中的相应值(前提 是两者不一样)。 ? 在这两种情形下, merge 自动生成一个指示变量 _merge 。 该变量的不同取值,代表了合并的不同情形。但一般会连 续进行几次 merge 操作,所以在完成一次 merge 后应马上 使用 drop _merge 指令将其去掉。 4.6 变量类型转换 ? Stata 通常把变量划分为三类:数值型,字符型和日期型 ? 字符型变量之间不能进行数值计算,所以如果对字符型变量 进行数值计算, Stata 则会提醒出现系统错误,这时必须将字 符型变量转化成数值型变量,才能进行正确的计算。字符型 变量转化成数值型变量命令: destring [varlist] , {generate(newvarlist)|replace} [options] ? 这个命令语句中, varlist 是进行数据转化的变量名称, generate (newvarlist) | replace 表示生成新的变量或者替换 原来的变量, options 的具体内容如表 2.3 所示。 4.6 变量类型转换 ? 比如: destring b10,gen(B10) ignore(“ $” ) destring b10,gen(B10) force ? 数值型变量转化为字符型变量: tostring [varlist], [generate (newvarlist) | replace] [options] 4.7 描述统计 ? describe 命令可以描述数据文件的整体,包括观测总数, 变量总数,生成日期,每个变量的存储类型,标签 ( label )等。 ? 如果数据文件不是很大,可以直接在 Stata Results 中显 示数据,使用如下命令: list [varlist] [if] [in][, options] ? 其中, varlist 是变量列表(即多个变量,如变量 1 、变量 2 直至变量 n ),此处命令置于方括号中,说明变量列表 可有可无。如果 varlist 省略,则默认命令作用的对象为 数据库中所有变量。 if 和 in 均为可选条件。最后的 options 为可选项,在写命令时要置于逗号后。 4.7 描述统计 ? summarize 命令: summarize [varlist] [weight] [if] [in] [,detail] ? summarize 可以提供 varlist 指定变量(可以不止一个)的如 下统计量: Percentiles (分位数) , Largest (四个最大的 数) ,Smallest (四个最小的数) ,Mean (均值) ,Variance (方差) ,Std. Dev. (标准差) ,Skewness (偏度)

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档