- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据清洗的SPSS软件实现主讲老师:许华《健康数据统计分析》项目二健康数据清洗与筛选版权单位:
任务描述项目一建立了“老年人慢性病健康数据库”,但在实际的数据收集和整理过程中,数据可能存在不完整、不准确、不一致等问题,还要聚焦于特定的慢性病患者群体,排除不符合研究要求或存在错误的数据记录,从而提高分析的准确性和效率。因此需要对数据进行清洗与筛选。任务一:对“老年人慢性病健康数据库”进行数据清洗
任务分析对于老年人慢性病健康数据库中存在的问题,我们需要运用合适的方法对缺失值进行填补,对异常值进行修正或剔除,对错误值进行更正,以确保数据的质量。
任务实施一、处理缺失值MISSING函数可以用来检测数值类型和日期类型的变量是否缺失。例如MISSING(年龄)。1.执行“ComputeVariable”命令,生成新变量“缺失标志”。如果对多个数值类型或日期类型的变量同时查询,可以使用逻辑或运算符“|”将各变量的缺失条件连接起来。输入公式后,输出的结果中“缺失标志”为1,则该样本的“年龄、收缩压、舒张压、空腹血糖、总胆固醇、收集时间”等其中之一有缺失,缺失标志为0代表不缺失。经查询,找到第21条、第47条记录分别存在“年龄”缺失和“收集日期”缺失。(一)数值类型和日期类型的变量缺失
任务实施2.个别样本的年龄缺失可以通过身份证号信息推算出年龄信息,进行补全。执行“ComputeVariable”命令,生成新变量“推算年龄”,输入公式,用当年的年份减去身份证号中的年份,生成“推算年龄”后,可以根据它对“年龄”列缺失值进行填补即可。一、处理缺失值(一)数值类型和日期类型的变量缺失
任务实施3.“收集时间”的缺失没有办法通过其他字段信息准确的填补,只能用数据采集周期的中位数日期填充。执行“Analyze”→“DescriptiveStatistics”→“Frequencies”命令,将“收集时间”添加到变量框中,统计变量选择“Median”,SPSS会输出收集日期的中位数。将中位数日期“2024/06/16”填充到第47条样本“收集时间”单元格中即可。一、处理缺失值(一)数值类型和日期类型的变量缺失
任务实施一、处理缺失值(二)字符串类型数据缺失值处理1.执行“ComputeVariable”命令,输入新变量名“缺失标志”。使用逻辑或运算符“|”将所有字符串类型变量的缺失条件连接起来,输入公式后,会对字符串类型数据是否为空字符串进行判断,缺失标志为1代表缺失,0代表不缺失。
任务实施2.“姓名”缺失无法填充,可以选择直接删除该类样本。而“性别”的缺失可以从“身份证号”上面获取,身份证号第17位是偶数,则为女性,是奇数则为男性。执行“ComputeVariable”命令,生成新变量“性别数字”,输入公式,完成“性别数字”的提取,按照国家规定,数字为偶数代表女性,数字为奇数代表男性。按照“性别数字”的值,完成性别缺失值的填补。一、处理缺失值(二)字符串类型数据缺失值处理
任务实施描述统计法、箱线图法和Z分数法是三种常见的方法。1.描述统计方法执行“Descriptives...”命令,将数字变量选入右侧变量框,选择统计量,查看输出结果初步判断是否存在超出合理范围的异常值。假设年龄超出0-120岁范围算异常值,收缩压超出60-200mmHg范围算异常值,舒张压超出40-120mmHg范围算异常值,血糖超出2.2-22mmol/L范围算异常值,总胆固醇超出2-10mmol/L范围算异常值,运动频率超出0-14次算异常值。二、识别异常值(一)数字类型数据
任务实施二、识别异常值(一)数字类型数据2.箱线图法执行“Boxplot...”命令,选择“Simple”选项,勾选“Summariesofseparatevariables”,单击“Define”按钮,将数字变量移动到“BoxesRepresent”,然后单击“OK”按钮。箱线图会显示数据的中位数(Median)、四分位数(Quartiles)和异常值(Outliers),箱线图中超出上边缘和下边缘的点被视为异常值。从图中可以看出第10个、第16个样本的年龄被认定为异常值,第9个、第23个样本的收缩压被认定为异常值,第14个样本的舒张压被认定为异常值,第35个、第43个样本的空腹血糖被认定为异常值,第41个、第38个样本的总胆固醇被认定为异常值,但是否真是异常值还需进一步确认。
任务实施二、识别异常值(一)数字类型数据3.Z分数法执行“Descriptives...”命令,将数字变量选入右侧的变量框中,然后勾选“Savestandardizedvaluesasvariables”选项,生成对应的Z分数变量(如“Z年龄”“Z血糖”“Z血压”)。一般情况下,Z分数的绝
您可能关注的文档
最近下载
- 腹腔穿刺术评分标准.docx VIP
- 第19课 辛亥革命 教学课件高中历史统编版必修中外历史纲要上册.pptx VIP
- 中国脑梗死静脉溶栓指南2024.docx VIP
- 医院门诊挂号系统可行性研究报告(doc 18页).docx VIP
- 4《最后一片叶子》课件(共35张 PPT)高教版(2025)中职语文基础模块上册.pptx VIP
- GB 9683-1988复合食品包装袋卫生标准.pdf
- (高清版)DB52∕T 1696-2022 口腔综合治疗台用水卫生管理规范.pdf VIP
- 《山东省结核病防治规划(2025-2030年)》全文及解读.docx
- 2011-65-EU指令(新版RoHS指令中文版).docx VIP
- 家庭医生签约服务工作培训计划.pptx VIP
原创力文档


文档评论(0)