医学卫生统计数据清洗案例分析教学课件.pptxVIP

医学卫生统计数据清洗案例分析教学课件.pptx

本文档由用户AI专业辅助创建,并经网站质量审核通过
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

医学卫生统计数据清洗案例分析教学课件演讲人

目录01.前言07.健康教育(数据质量意识提升)03.护理评估(数据质量评估)05.护理目标与措施(数据清洗实施)02.病例介绍(项目背景)04.护理诊断(数据问题定位)06.并发症的观察及护理(清洗风险控制)08.总结

01前言

前言作为一名在医院统计科工作了12年的统计师,我始终记得带教老师说过的一句话:“医学研究的大厦,地基是数据;数据的质量,决定了大厦能建多高。”这句话在我参与的每一个项目中都被反复验证。

近年来,随着电子病历系统(EMR)的普及和医学大数据研究的兴起,我们手头的“数据量”越来越大,但“数据质量”却成了横在研究面前的一道坎。我曾见过某团队用“看起来完整”的糖尿病患者数据做回归分析,结果因血糖值存在大量“0”和“999”的异常录入,得出“年龄与血糖负相关”的荒谬结论;也经历过某流行病学调查因患者ID重复,导致样本量虚高30%,最终研究成果被迫撤回。这些教训让我深刻意识到:医学卫生统计的第一步,不是急着跑模型、算指标,而是“蹲下来”把数据洗干净——这是所有后续分析的前提,更是对研究严谨性、对患者负责的底线。

前言今天,我想以2022年参与的“某三甲医院2018-2022年2型糖尿病患者用药依从性研究”数据清洗项目为例,和大家分享一次真实的数据清洗全流程。这不仅是技术操作的复盘,更是一次“用临床思维理解数据、用统计逻辑修正数据”的实践课。

02病例介绍(项目背景)

病例介绍(项目背景)2022年3月,医院内分泌科联合统计科启动“2型糖尿病患者用药依从性影响因素”研究,目标是通过分析近5年住院及门诊患者的电子病历数据,找出影响患者按时服药、定期复诊的关键因素。项目组最初拿到的原始数据,来自医院HIS系统、电子病历系统(EMR)和药房发药系统的整合,涵盖患者基本信息(年龄、性别、文化程度)、临床指标(空腹血糖、糖化血红蛋白)、用药记录(药物名称、剂量、频次)、复诊记录四大模块,共涉及12387例患者,数据量约150万条。

但拿到数据的第一刻,我们就皱起了眉头:

基本信息表中,“文化程度”字段有12.3%的缺失,部分记录填的是“小学”“文盲”“未说明”,还有3例填了“1998年”(明显是录入错误);

病例介绍(项目背景)临床指标表中,空腹血糖值存在大量异常值:127例显示“0mmol/L”(生理上不可能),89例显示“50mmol/L”(远超危急值上限);用药记录与发药系统数据不匹配:某患者电子病历中记录“二甲双胍0.5gtid”,但药房系统显示近3个月仅发药2次,频次明显不符;患者ID重复:通过“身份证号”字段核查,发现132例患者存在“一人多ID”情况(因多次住院时姓名笔误或录入错误导致)。这些问题如果不解决,后续的回归分析、生存分析根本无从谈起。于是,我们统计科联合内分泌科临床医生、信息科工程师,组成了7人数据清洗小组,开启了为期2个月的“数据修复战”。

03护理评估(数据质量评估)

护理评估(数据质量评估)在临床护理中,评估是制定护理计划的第一步;在数据清洗中,“数据质量评估”就相当于给数据“做全身体检”,只有明确“哪里不健康”,才能“对症清洗”。

我们的评估分三步进行:

完整性评估——数据“缺不缺”?通过SQL查询各字段的缺失率,发现:

核心字段“糖化血红蛋白(HbA1c)”缺失率18.7%(因部分门诊患者未做该检查);

“文化程度”缺失率12.3%(患者未填写或护士漏录);

“最近一次复诊时间”缺失率23.1%(部分患者为社区随访,未在医院系统记录)。

2.准确性评估——数据“对不对”?

结合临床知识核查数值合理性:

年龄字段:1例“-3岁”(应为“3岁”,录入时符号错误),5例“150岁”(明显是录入错误,实际为“50岁”或“60岁”);

完整性评估——数据“缺不缺”?空腹血糖值:除了前面提到的“0”和“50”,还有21例“1.2mmol/L”(接近低血糖临界值,但结合病历,其中15例是患者空腹时间过长导致的真实值,6例是仪器故障误录);

药物剂量:某患者记录“胰岛素800U/次”(正常剂量为10-30U/次,经核查是多输了一个“0”)。

一致性评估——数据“通不通”?跨表核对逻辑一致性:

患者性别:电子病历中为“女”,但检验单中“前列腺特异性抗原(PSA)”有值(明显矛盾,经核查是护士录入性别时选错);

用药频次:病历中“二甲双胍tid(每日3次)”,但发药记录显示“每2日1次”(可能是患者实际用药不规律,或护士记录的是医嘱而非实际执行情况);

诊断编码:部分2020年前的记录使用ICD-10-CM2019版编码,2020年后使用2021版,同一诊断可能对应不同编码(如“2型糖尿病”在2019版为E11.9,2021版为E11.90,需统一)。

这一

文档评论(0)

134****5158 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5102123302000100

1亿VIP精品文档

相关文档