社会统计分析与数据处理技术(Stata)4 变量的生成与处理.ppt

社会统计分析与数据处理技术(Stata)4 变量的生成与处理.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 变量的生成与处理 导论 Stata 对数据的处理是以变量为前提的 若没有需要分析的变量,则Stata将一无用处 熟悉变量的内容和分布、生成新变量、改变旧变量等是处理数据的第一步 本章主要内容 4.1. 变量的测量水平(measurements) 4.2. 新变量的生成、规则及注意事项 4.3.利用系统变量或下划线变量生成新变量 4.4.生成字符型变量 4.5.生成数值型变量 4.6.生成分类变量 4.7.生成虚拟变量 4.1. 变量的测量水平 (measurements) 离散和连续测量 离散方式(discrete measure):由定性测量和定序测量组成;适用于低层次数据 连续方式(continuous measure):由定距测量和定比测量组成。适用于高、低层次数据 在这四种测量中,层次从高到低的排序依次是:定性、定序、定距和定比 定性和定序测量 定性测量(nominal measure):变量的属性具有完备性和排他性特征,是表达概念特征的名称或标签,描述属性之间的差异。有别于定序、定距和定比测量 性别,政治党派,民族,宗教流派,出生地,等等 定序测量(ordinal measure):描述变量属性的相对程度或排行序列,但数值之间的差别既无法确定、也无意义: 社会经济地位的高、中、低 教育程度的文盲、小学、初中、高中和大学 非常同意、同意、一般、不同意、非常不同意 定距和定比测量 定距测量(interval measure):变量的属性可以按顺序排列;相邻属性之间的距离是相等且有实际意义的 华氏温度计。30度和40度之间的距离等于50度和60度之间的距离 “0”没有意义。华氏的60度并不是30度的一倍,零度并不意味着没有温度,零下30度也不等于比没有热度低30度。摄氏温度计的原理也是如此 定比测量(ratio measure) 连续测量。数值之间的距离是连续的、等距离的 可描述前面三种测量提到过的属性 以真实的“0”为基础,“0”有意义。如:“0”岁表示孩子刚出生;“0”收入表示没有任何收入。与定距测量的主要区别在于“0”的意义的有无 区分变量测量水平的意义 统计程序的需要:每一种统计程序都基于一定的假设和条件 有些统计程序(如,% 或众数)适用于所有类型数据;其他统计程序(如,均值、标准偏差、相关关系)仅适用于定距或定比数据 某些统计程序稳健,即便一些基本的假定被违反,分析结果也不受影响;另一些统计程序的假定一旦被违反,其结果就变得无意义 对定性数据,计算均值毫无意义 模型选择的需要:数据形式和变量的测量直接影响到模型的选择 一般情况下,最好是收集高层次的数据。高层次数据可转换为低层次数据 4.2. 新变量的生成、规则及注意事项 Stata的变量类型 Stata软件生成三类变量:numeric(数值型)变量,string(字符型)变量(相当于定性变量)和date(日期)变量。虽然日期变量以数值型变量的技术记录、存储,但二者的用途却不同 数值型变量包括定距和定比变量。可以是整数、小数、负数和正数。数值型变量可以有多种存储方式( Storage Types) 用str类型保存的定性等分类变量也可区分为多种形式,从str1-str244 Stata的日期变量 日期(date)变量是数值型变量的一个特例。它们通常以字符的形式输入(如: 01JAN1992 or 01/01/92),但必须以数值型数据存储才能有用 Stata有几个命令可以工作于日期和时间依赖(time-dependent)数据 Stata将所有的日期保存为从1960年1月1日以来的天数或月份、季节等。此前的日期是负值,此后的是正值。SAS使用同样的日期方式,但其起始时间是1582年的10月14日。Excel使用1900年1月1日为默认起始日。如果读入Excel数据,则以字符型变量输入日期,并重新格式日期 生成变量的路径 Data — Create or change variables 生成变量的窗口 Data — Create or change variables — Create new variable 基本命令 Stata有四个基本的生成和修改变量的命令:gen、egen、replace和recode . gen和egen分别是generate和extended generate的缩写,它们用于生成新变量 . replace和recode用来改变现存变量的属性或数值 . replace需要与gen一起使用;二者的区别在于,gen用于生成新变量,replace用于重新定义已经存在的变量 . recode也可以与gen一起使用 基本语法 . gen [变量名] = [表达式1] ① ②

文档评论(0)

别样风华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档