易侕数据清理操作指引-EmpowerStats.PDFVIP

  • 122
  • 0
  • 约1.62千字
  • 约 5页
  • 2019-07-05 发布于天津
  • 举报
易侕数据清理操作指南 下载练习数据:/empowerStats/exdata/dataclean_test.txt 操作步骤: I. 第一步:将要清理的 EXCEL 或其它格式数据文件存成 Unicode Text 文件。 II. 第二步:选择要清理的数据文件,逐个点击列标题,浏览变量分布、选择清理操作。 III. 第三步:清理数据、查看与下载变量说明、浏览与下载数据。 原始数据类型与清理方法: 1. 分类型字符数据,如不孕类型。程序自动按频数排序,自动编码,必要时可修改编码。变量描述自 动赋值为列标题,用户可以修改变量描述。点击“直接保存”。 2. 数字型连续性数据,如体重指数。程序自动统计变量分布: 自动检测极端值并列出,用户可以对检出的极端值进行更正。如体重指数 39.24: 自动列出原始数据中错误输入的字符型数据,用户可以对之重新赋值。如体重指数22.-6 赋值为 22.6: 对极端值与字符值(如有)进行更正与赋值后,修改变量描述(如需要),点击“直接保存”。 3. 文字型罗列名称,如治疗用药。程序自动列出各种文字描述及其出现频数: 这类数据需转换成每种名称(药)是否使用的哑变量。选择分隔符,此例分隔符为“,”。如果有多 种可能的分隔符,可以同时列出,中间用 OR (大小写不限)分隔,如 “, or s” 表示逗号或空 格分隔(S 表示空格,大小写不限)。点击“转成多选题”。 程序自动计算各名称(药)出现的频率,按频率排序,为每种名称(用药)生成一个哑变量。用户可以 将相似或同种名称(药)的哑变量编号改成同一编号,以合并相似或同种名称(药)。然后点击“更新 哑变量”。程序自动列出原始数据转换后各哑变量的赋值: 修改变量描述(如需要),点击“保存哑变量”。 4. 文字描述型数据,如移植胚胎评价。程序自动列出各种文字描述及其出现频数: 这类数据需要从文字中提取信息。通过给定起始与终止符选择要提取的信息,如要提取胚胎序号, 起始符“胚胎序号:”,终止符为空格或逗号。变量描述改为胚胎序号,点击“提取信息”。 程序自动提取信息,并对提取出来的信息进行频数统计,如果提取出来的信息全为数字,自动按数 字型变量处理子变量,如胚胎序号。 提取出胚胎序号后,点击“保存”。可以再提取胚胎质量信息(注:点击保存后,页面自动关闭该 列窗口,可以再次点击列标题重新进入该窗口),设置起始与终止符为 “x or ,”(注:其中的 x 符号需从数字中复制黏贴),修改变量描述为胚胎质量,点击“提取信息”: 如提取出来的信息含文字,程序自动对信息进行编码,用户可以对个别无法通过规定起始符与终止 符的文字记录手动输入提取的信息与编码。 点击“保存”后保存胚胎质量信息。 其它操作: 1. 当有已清理并保存的列标题后,“清理数据”按键才被激活,已保存的列标题通过背景颜色与其它 未清理的区别,输出的变量数也在“清理数据”按键上方显示。 2. 点击“清理数据”后,即可浏览数据如: 3. 点击 “查看变量注解”: 4. 点击 下载变量注解, 下载清理后的数据。 5. 点击列标题,可以查看或关闭相应变量操作窗口。 6. 点击“删除此列”删除已保存的列。 7. 点击列变量窗口右边的下三角 图标关闭该窗口。 8. 点击列变量窗口右边的下三角 图标重置该变量(清除对该列前面所有的操作)。

文档评论(0)

1亿VIP精品文档

相关文档