易侕数据清理操作指南.pdfVIP

  • 101
  • 0
  • 约2.26千字
  • 约 5页
  • 2019-06-05 发布于湖北
  • 举报
易侕数据清理操作指南 下载练习数据:/empowerStats/exdata/dataclean_test.txt 操作步骤: I. 第一步:将要清理的 EXCEL 或其它格式数据文件存成 Unicode Text 文件。 II. 第二步:选择要清理的数据文件,逐个点击列标题,浏览变量分布、选择清理操作。 III. 第三步:清理数据、查看与下载变量说明、浏览与下载数据。 原始数据类型与清理方法: 1. 分类型字符数据,如不孕类型。程序自动按频数排序,自动编码,必要时可修改编码。变量描述自 动赋值为列标题,用户可以修改变量描述。点击“直接保存”。 2. 数字型连续性数据,如体重指数。程序自动统计变量分布: 自动检测极端值并列出,用户可以对检出的极端值进行更正。如体重指数39.24: 自动列出原始数据中错误输入的字符型数据,用户可以对之重新赋值。如体重指数22.-6 赋值为 22.6: 对极端值与字符值(如有)进行更正与赋值后,修改变量描述(如需要),点击“直接保存”。 3. 文字型罗列名称,如治疗用药。程序自动列出各种文字描述及其出现频数: 这类数据需转换成每种名称(药)是否使用的哑变量。选择分隔符,此例分隔符为“,”。如果有多 种可能的分隔符,可以同时列出,中间用 ||分隔,如 “,||;||s”表示逗号或分号或空格分隔(S 表示空格,大小写不限)。点击“转成多选题”。 程序自动计算各名称(药)出现的频率,按频率排序,为每种名称(用药)生成一个哑变量。用户可以 将相似或同种名称(药)的哑变量编号改成同一编号,以合并相似或同种名称(药)。然后点击“更新 哑变量”。程序自动列出原始数据转换后各哑变量的赋值: 修改变量描述(如需要),点击“保存哑变量”。 使用“排除项”剔除不需要的选项。使用方法是:输入关键词,程序自动查找字段中是否有输入的 关键词,如有将不列为哑变量选项。关键词的输入规则是: “^”、“+”、“%”、“!”、 “~”、“`”(英文状态输入)分别表示开头、结束、包含、不包含、等于、不等于。例如要从字符 串:“1.乙肝病毒携带(1.4.5+);2.前次剖宫产;3.子宫肌瘤合并妊娠;4.孕4 产 1 39+3 周妊娠LOA 待产”中提取分类变量:乙肝病毒携带、子宫肌瘤合并妊娠。要剔除分类:前次剖宫 产、孕4 产 1 39+3 周妊娠LOA 待产。可以用: “+产”(表示以“产”字结束的不要)。 选择 “删除开头数字或序号”即删除“1.乙肝病毒携带(1.4.5+)”开头的“1. ”。 选择“删除括号及括号内字符”即删除 “1.乙肝病毒携带(1.4.5+)”中的“ (1.4.5+)”。 4. 文字描述型数据,如移植胚胎评价。程序自动列出各种文字描述及其出现频数: 这类数据需要从文字中提取信息。通过给定起始与终止符选择要提取的信息,如要提取胚胎序号, 起始符“胚胎序号”,只提取后面的1 位数字, “#”表示1 位数字,终止符可省略。变量描述改 为胚胎序号,点击“提取信息”。 程序自动提取信息,并对提取出来的信息进行频数统计,如果提取出来的信息全为数字,自动按数 字型变量处理子变量,如胚胎序号。 提取出胚胎序号后,点击“保存”。可以再提取其它信息。 如提取出来的信息含文字,程序自动对信息进行编码,用户可以对个别无法通过规定起始符与终止 符的文字记录手动输入提取的信息与编码。 提取数字时可以规定数字位数,1 个“#”表示1 个位数,中间可以有其它符号,如“##.#”表示 两位整数加1 位小数。 前字符与后字符可以有多种,中间用||分隔。 要提取的信息也可以有多种,中间用||分隔。 例:要从字符串:“1.乙肝病毒携带(1.4.5+);2.前次剖宫产;3.子宫肌瘤合并妊娠;4.孕 4 产 1 39+3 周妊娠LOA 待产”中: (i)提取孕次 = 4,可以定义为 “孕”后面1 位数,也可以定义为 “产”前面的1 位数: (ii)提取孕周 = 39,可以定义为“+”号前面的2 位数或 “产[0-9]”后面的两位数。 “产[0- 9]”表示产加1 位数。 其它操作: 1. 当有已清理并保存的列标题后,“清理数据”按键才被激

文档评论(0)

1亿VIP精品文档

相关文档