易侕数据清理操作指南.pdfVIP

下载本文档

101
0
约2.26千字
约 5页
2019-06-05 发布于湖北
举报

易侕数据清理操作指南.pdf

易侕数据清理操作指南下载练习数据：/empowerStats/exdata/dataclean_test.txt 操作步骤： I. 第一步：将要清理的 EXCEL 或其它格式数据文件存成 Unicode Text 文件。 II. 第二步：选择要清理的数据文件，逐个点击列标题，浏览变量分布、选择清理操作。 III. 第三步：清理数据、查看与下载变量说明、浏览与下载数据。原始数据类型与清理方法： 1. 分类型字符数据，如不孕类型。程序自动按频数排序，自动编码，必要时可修改编码。变量描述自动赋值为列标题，用户可以修改变量描述。点击“直接保存”。 2. 数字型连续性数据，如体重指数。程序自动统计变量分布：自动检测极端值并列出，用户可以对检出的极端值进行更正。如体重指数39.24：自动列出原始数据中错误输入的字符型数据，用户可以对之重新赋值。如体重指数22.-6 赋值为 22.6：对极端值与字符值（如有）进行更正与赋值后，修改变量描述（如需要），点击“直接保存”。 3. 文字型罗列名称，如治疗用药。程序自动列出各种文字描述及其出现频数：这类数据需转换成每种名称(药)是否使用的哑变量。选择分隔符，此例分隔符为“，”。如果有多种可能的分隔符，可以同时列出，中间用 ||分隔，如 “,||;||s”表示逗号或分号或空格分隔(S 表示空格，大小写不限)。点击“转成多选题”。程序自动计算各名称(药)出现的频率，按频率排序，为每种名称(用药)生成一个哑变量。用户可以将相似或同种名称(药)的哑变量编号改成同一编号，以合并相似或同种名称(药)。然后点击“更新哑变量”。程序自动列出原始数据转换后各哑变量的赋值：修改变量描述（如需要），点击“保存哑变量”。使用“排除项”剔除不需要的选项。使用方法是：输入关键词，程序自动查找字段中是否有输入的关键词，如有将不列为哑变量选项。关键词的输入规则是： “^”、“+”、“%”、“！”、 “~”、“`”(英文状态输入)分别表示开头、结束、包含、不包含、等于、不等于。例如要从字符串：“1.乙肝病毒携带（1.4.5+）；2.前次剖宫产；3.子宫肌瘤合并妊娠；4.孕4 产 1 39+3 周妊娠LOA 待产”中提取分类变量：乙肝病毒携带、子宫肌瘤合并妊娠。要剔除分类：前次剖宫产、孕4 产 1 39+3 周妊娠LOA 待产。可以用： “+产”（表示以“产”字结束的不要）。选择 “删除开头数字或序号”即删除“1.乙肝病毒携带（1.4.5+）”开头的“1. ”。选择“删除括号及括号内字符”即删除 “1.乙肝病毒携带（1.4.5+）”中的“ （1.4.5+）”。 4. 文字描述型数据，如移植胚胎评价。程序自动列出各种文字描述及其出现频数：这类数据需要从文字中提取信息。通过给定起始与终止符选择要提取的信息，如要提取胚胎序号，起始符“胚胎序号”，只提取后面的1 位数字， “#”表示1 位数字，终止符可省略。变量描述改为胚胎序号，点击“提取信息”。程序自动提取信息，并对提取出来的信息进行频数统计，如果提取出来的信息全为数字，自动按数字型变量处理子变量，如胚胎序号。提取出胚胎序号后，点击“保存”。可以再提取其它信息。如提取出来的信息含文字，程序自动对信息进行编码，用户可以对个别无法通过规定起始符与终止符的文字记录手动输入提取的信息与编码。提取数字时可以规定数字位数，1 个“#”表示1 个位数，中间可以有其它符号，如“##.#”表示两位整数加1 位小数。前字符与后字符可以有多种，中间用||分隔。要提取的信息也可以有多种，中间用||分隔。例：要从字符串：“1.乙肝病毒携带（1.4.5+）；2.前次剖宫产；3.子宫肌瘤合并妊娠；4.孕 4 产 1 39+3 周妊娠LOA 待产”中：（i）提取孕次 = 4，可以定义为 “孕”后面1 位数，也可以定义为 “产”前面的1 位数：（ii）提取孕周 = 39，可以定义为“+”号前面的2 位数或 “产[0-9]”后面的两位数。 “产[0- 9]”表示产加1 位数。其它操作： 1. 当有已清理并保存的列标题后，“清理数据”按键才被激

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

易侕数据清理操作指南.pdfVIP