如何利用自然语言处理技术实现电子病历后结构化-刘帆.docVIP

如何利用自然语言处理技术实现电子病历后结构化-刘帆.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何利用自然语言处理技术实现电子病历后结构化-刘帆.doc

表示不知道具体是什么 表示推测的大概意思 接下来开始下午拓导课的第一个报告,首先呢,我们有请,北京大学人民医院的信息中心刘帆主任来给我们作报告。刘帆主任呢,大家可能会比较熟悉,每年都非常活跃,他在医院做了非常多的信息化的建设工作,而且积累了非常多的经验,同时呢,他们院的很多工作在国内都是很领先的,让我们欢迎刘帆主任。 非常高兴在刘海一主任的专场有机会跟大家汇报下,我们最近在电子病历方面结构化的一些工作新进展。因为今天讲的涉及内容需要做三元分析,就是如何运用新的方法来帮我们做电子病历的结构化。因为本身呢,这也是比较新的东西,然后理论性比较强。所以把今天要讲的东西分成了两部分。第一部分呢,对我们所做的工作做一个概况的介绍,之后由我的同事,我的合作伙伴,北京医渡云科技有限公司的“何值”,他来帮我们做一些演示。我们也专门为今天的会议做了一些在线的事实分析。今天讲的课题是如何利用自然语言分析的技术来实现电子病历后结构化,大家都知道病历的发展其实很早,早在公元6世纪的希腊,而中国汉代的初期就有著名的内科医生开始记病历了;但是呢,这个病历沿用至今也是医院或者医教研管理,包括卫生统计和法律的一个重要依据文档。当我们谈起病历时,其实病历有3个最主要的功能:第一个是存储功能,第二呢是传播功能,第三个则是病历本身数据的职能。那么数据职能对我们有什么帮助?我们为什么要做结构化?大量的、海量的数据中获取,我们如何做医疗病历的指控,如何来帮助我们做临床数据的挖掘、科研分析以及做一些基本的卫生统计。那么我们可以看到,现在我们说“病历”这个概念的时候,我们不是单纯的在说电子病历本的数据工具,而是网页电子病历,这个页面要包含病人在医院发生的所有临床活动的记录,当然这有些是来自我们传统病历厂商手写的文书,或者说非Touch文书,有的大部分来自我们各个医技系统的数据。在此种情况下,我们五六年前就开始尝试在医院创建CDR数据中心,当时我们对整个临床数据的概念还是比较模糊的,我们希望能搭建一个SCII码,然后能把所有临床的数据都放进去;就现在的系统而言,是“13+1”。13个本身已经结构化很好的临床数据源,再加上一个非结构化的临床数据源。这个非结构化的数据源,就是我们一直都苦恼的,传统电子病历软件里面产生的大量文本信息。其实对大部分的数据来讲,这是药品的数据字典表,在这个药品的数据字典表这只是四分之一,本身就已经涵盖了很多药品的信息,那其实在做医院管理或者说科研分析的时候,如何没有这种这么详细的结构化数据,很多事情是做不到的。那好,我们在做非结构数据这一块应该包含多少活动记录?通过参考国家卫生部的电子病历基本架构和数据标准,把我们7个领域、16类活动的62个活动记录,都纳入非结构化的电子病历文档。当我们把所有非结构化的东西进行总结,我们会发现有62个临床文档,还有其他的一些数据锁还有大量的数据源。 我们对于这种非结构的数据是怎么录入的呢?其实可以分为3个阶段:最开始的时候,我们都是手写病历;迄今为止病案统计室里面那些手写病历等珍贵资料,我们如何将其变成信息化?这是一个非常困难的问题。很多医院只是对其进行扫描,简单的解决了存储问题和传播问题;但数据的利用问题还是解决不了。后来,我们利用word文档,单机版开始写病历;还有电子病历软件开始写病历。我们现在在电子病历软件里面写的东西是什么?我们可以看到写了3种东西,要么是自然语言,要么就是半结构化,要么就是结构化的表单式模板。其实呢,我们从07年开始做电子病历,到现在16年已经接近10年了。10年来,我个人觉得我一直没有解决一个问题,我们医院是一个纯结构化,还是一个半结构化的?纠结了很长时间。我想在座的很多同道都在纠结这么一个问题。很多医院对外宣传说,我们是纯结构化的电子病历;但是我们抿心自问这种纯结构化我们做不到,非常非常的困难。我们在一开始探索的过程中,我们可以看到我们一直做的是半结构。我们通过下拉菜单的方式来做这件事情,半结构的初始模板的工作量是非常巨大的,而且其中很多内容是不符合我们临床录入的习惯,因为由于没有一些层基的关系,造成我们的一些采集的数据没有上下文的关系。比如说,我们采集到一个“黄染”,这个黄染是巩膜黄染还是皮肤黄染我们不知道,因为没有上下文的关系或者说没有数据文档之间的关系,在这种情况下,我们制作了大量的表单式的结构化的病历;但做出这样的病历之后呢,医政部门告诫说这种不符合我们的病历要求,因为这是表头化的病历,表单化不是我们那种“一竖无史”(07分17秒)的病历。所以这又产生了其他的一些问题。 直到三年前,卫生部门做了电子病历的标准,这标准把所有临床文档分成了临床文档、文档段、数据组和元素四级;在这里面,又涉及了大量的标准元素拓扑。我们当时觉得此标准出台后,我们应该遵从这样的标准去建立我们的电子病历。把

文档评论(0)

jackzjh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档