《数据分析与STATA应用》 试题题库-杨菊华.docx

《数据分析与STATA应用》 试题题库-杨菊华.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如无特别说明,本题库所使用的数据,均选取自中国综合社会调查(CGSS)2017年的调查数据,数据名称为文件夹中的cgss2017_tiku.dta。 第三章 Stata数据的读入与熟悉 1.创建一个新的log文件,保存在C盘的stata文件夹下,并且将其命名为a1.smcl。 2.使用编程命令,在do文件中录入以下数据,创建新的数据库,并将其保存为a2.dta: Mid IMC Novelty Challenge 5 5 5 5 3.33 3.33 3.33 3.67 4.67 5 4.33 5 4 4 4 4.67 3. 打开cgss2017_tiku.dta,对数据进行整体的描述。该数据共有几个变量?各自的变量名是什么?各自的存储类型是什么? 4.描述变量a10的基本内容,具体包括(1)变量的存储形式;(2)取值范围;(3)独特取值的个数;(4)缺失值;(5)分类的个数及各自的标签。 5.输出a8a,a69,a7a这三个变量第1000-1010样本分布情况。 6. 以性别a2为排序变量对数据进行排序。 7.将变量c4,a36,v458放置于数据的最前面显示。 第四章 变量的生成与处理 1. 生成一个新变量age,计算公式为2017-a31。 2. 用两种方法,根据变量a7a生成一个新变量edu,edu的分类标准如下: a7a edu 1,2 1 3 2 4,7,8 3 5,6 4 9-14 5 3. 根据age,生成age的平方,新变量名为sage。 4. 对于收入变量a8a有三类缺失值,即“不适用”“不知道”和“拒绝回答”,请将以上三类缺失值重新编码为系统缺失值“.”。 5. 新生成的年龄age取值范围是18岁至103岁,用两种方法,根据年龄age生成新变量年龄组agegrp,具体分组为: 18岁-44岁为第一组,取值为1,“青年人”; 45-59岁为第二组,取值为2,“中年人”; 60-79岁为第三组,取值为3,“低龄老人”; 80岁及以上为第四组,取值为4,“高龄老人”。 6. 根据age,描述年龄的均值,方差和标准差。 7. 根据第5题的内容,为年龄组agegrp各分组添加相应的值标签。 8. 将a2、a7a和a8a分别重新命名为性别sex、受教育程度edu和个人年收入income。 第五章 数据的合并、转换与集合 1. 将文件夹下的数据data1.dta与data2.dta进行纵向合并,并回答: (1)新生成的数据共有多少观察值和变量? (2)其中,来自data1和data2的观察值各有多少? 2. 选择合适的合并形式,以id为关键变量,以2008.dta为主要数据,将文件夹中的2008.dta和2011.dta进行合并,并回答以下几个问题: (1)有多少观察值分别来自主要数据、使用数据和同时来自两个数据文件? (2)新数据文件增加了多少个变量? (3)合并后的数据是否有重复值? (4)只保留匹配成功的观察值,将数据保存为新的数据库,命名dta。 (5)将新数据的相关变量分别与两个原始数据进行比较,检查合并的结果是否正确。 3. 运用第二题合并之后的新数dta,将此宽数据转换为长数据,检验转换的结果是否正确,并回答: (1)转换后的数据有多少个观察值? (2)转换后的数据有多少个变量? (3)转换后的数据变量有何变化? 第六章 数据的描述 1. 重新定义变量a2、a69和a36: (1)将a2重新命名为sex。将sex原有的取值1替换为0,代表男性;原有的取值2替换为1,代表女性。 (2)将a69重新命名为marriage。将marriage重新分组,其中将“未婚”和“同居”合并为第一组(取值为1)代表未婚,将“初婚有配偶”“再婚有配偶”“分居未离婚”合并为第二组(取值为2)代表已婚,将“离婚”和“丧偶”合并为第三组(取值为3)代表离婚和丧偶。 (3)将a36重新命名为happiness。将happiness中的自定义缺失值“不知道”“拒绝回答”重新赋值为系统缺失值。 (4)分别给sex和marriage两个变量的取值贴上对应定义的标签。 2. 给变量sex和happiness生成各自的频数分布表,并回答以下问题: (1)样本中性别的分布情况如何?男性和女性在样本各自所占的比例是多少? (2)生活幸福感happiness的分布情况如何?“非常幸福”和“非常不幸福”各自所占的比例是多少? 3. 生成性别sex和幸福感happiness的交叉分布表,需要有行百分比,列百分比和卡方检验,并解释分析结果。 4. 生成marriage和happiness的交叉分布表,需要有行百分比,列百分比和卡方检

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档