- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
一、前言演讲人
01前言02病例介绍:以某社区高血压流行病学调查为例03护理评估:像“医生查体”一样审视数据质量04护理诊断:定位数据问题的“病灶”05护理目标与措施:像“制定治疗方案”一样处理数据06并发症的观察及护理:预处理后要警惕“二次伤害”07健康教育:从“治已病”到“治未病”08总结:数据预处理是“带着镣铐的舞蹈”目录
医学流行病学答辩数据预处理教学课件
01前言
前言各位同仁、同学们:
站在讲台前,我想起去年参与某省慢性阻塞性肺疾病(COPD)流行病学调查项目时的场景——项目组花了3个月走村入户收集了2.3万份问卷和体检数据,可当我打开原始数据库的那一刻,额头直冒冷汗:血压值填成“120/800”的、吸烟年限标为“-5年”的、同一患者在不同问卷中身份证号对不上的……这些问题如果不解决,后续的统计建模、危险因素分析全是“空中楼阁”。
数据预处理,是流行病学研究的“第一块砖”。它不像问卷设计那样“抓人眼球”,也不像模型构建那样“技术感强”,但却是决定研究结果真实性、可靠性的关键环节。今天,我想以自己参与过的3个流行病学项目经验为线索,结合具体案例,和大家聊聊数据预处理的“里子”——那些藏在代码、表格背后的逻辑、细节与温度。
02病例介绍:以某社区高血压流行病学调查为例
病例介绍:以某社区高血压流行病学调查为例2022年,我所在的团队承接了某市“高血压患病现状及影响因素”社区调查项目。目标人群是18岁以上常住居民,样本量设计为1.5万例,数据来源包括:①结构化问卷(人口学特征、生活方式、疾病史);②现场体检(血压、身高、体重、腰围);③实验室检测(空腹血糖、血脂)。
原始数据的“乱象”当数据录入员将Excel文件传给我时,我做的第一件事不是开分析软件,而是打印了前100份问卷的“数据一致性核查表”——这是我从导师那里学来的“笨办法”,却最能发现问题。01完整性问题:约8%的问卷漏填了“每周运动时长”,12%的体检表缺失“腰围”(部分调查员解释“居民不愿意脱外衣测量”);02准确性问题:血压值出现“250/180”(超出临床危急值)、BMI计算错误(某份数据身高1.65米、体重50公斤,BMI却标为28.7);03一致性问题:同一居民在问卷中自述“不饮酒”,但体检表“酒精性肝病”一栏填了“是”;身份证号与年龄矛盾(如身份证显示1965年出生,但年龄填“40岁”);04
原始数据的“乱象”格式混乱:“文化程度”有“小学”“小学毕业”“小学未毕业”三种写法;“吸烟情况”有“0”“无”“否”三种编码。
这些问题不是“小瑕疵”,而是会直接扭曲结果:比如漏填“运动时长”的人群可能本身运动习惯差,若直接删除会低估运动与高血压的关联;错误的血压值会拉高“高血压患病率”的统计结果;不一致的逻辑会让多因素分析出现“伪关联”。
03护理评估:像“医生查体”一样审视数据质量
护理评估:像“医生查体”一样审视数据质量数据预处理的第一步,是“评估数据质量”——这和医生给患者做体格检查类似,需要系统、细致地“望闻问切”。
完整性评估:看数据“缺不缺”我们用Excel的“计数”函数、SPSS的“缺失值分析”模块,统计每个变量的缺失率。例如,“每周运动时长”缺失率8%,但进一步发现:缺失集中在65岁以上老年组(缺失率15%),可能因老人记不清或不愿回答;“腰围”缺失率12%,主要来自农村女性(20%),与调查员描述的“测量不便”一致。
准确性评估:看数据“对不对”值域检查:数值型变量设定合理范围(如血压收缩压50-200mmHg,年龄0-120岁),超出范围的标记为异常值;01逻辑检查:分类变量的内部一致性(如“吸烟”=“是”则“吸烟年限”应≥1年);计算变量的准确性(如BMI=体重/身高2,手动复核100例计算错误);02交叉验证:调取10%的原始问卷与录入数据比对,发现“文化程度”录入错误率3%(如“初中”误录为“高中”),“饮酒频率”错误率5%(“偶尔”误录为“每天”)。03
一致性评估:看数据“通不通”建立“变量关系字典”:比如“高血压病史”=“是”,则“目前是否服药”应非空;“糖尿病病史”=“是”,则“空腹血糖”应≥7.0mmol/L(或注明“未检测”)。通过逻辑函数筛选出矛盾数据,例如127例“自述高血压但未服药且血压正常”,需要联系调查员复核(最终确认89例为“近期停药”,38例为“问卷填写错误”)。
04护理诊断:定位数据问题的“病灶”
护理诊断:定位数据问题的“病灶”经过评估,我们给这批数据下了“诊断”——就像医生给患者下诊断书一样,需要明确问题类型、严重程度和影响范围。
轻度问题(可直接修正)1格式不一致:如“文化程度”统一为“小学及以下”“初中”“高中/中专”“大专及以上”;2编码错误:将“吸烟情况”的“0”“无”“否”统一编
您可能关注的文档
最近下载
- 电气工程施工方案范本(3篇).docx
- 广东省中山一中等六校2025届高三下学期联合考试化学试题含解析.doc VIP
- 广东省中山一中等六校2024届高三压轴卷化学试卷含解析.doc VIP
- “结构主义·转型为鉴”系列之日本篇:转型得与失.pdf VIP
- 综合布线系统双绞线工程检测原始记录表.doc VIP
- SY0031-2012石油工业用加热炉安全规程.docx VIP
- 交直流电力系统的分析和控制.pdf VIP
- 初中英语必背单词2000个(按词性分类带音标).docx
- 统编版五年级下册语文全册教案【三】-统编版五年级下册语文教案-已转换.docx VIP
- 装修监理规划范本样本.doc VIP
原创力文档


文档评论(0)