- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
半结构化病历文档信息抽取应用
① ① ① ① ①
苏韶生 余元龙 程敏婷 张淑娟 何远源
①中山市人民医院信息科,528403,中山市孙文中路2 号
摘 要 电子病历正在全国普及和发展,电子病历的信息量也在以惊人的速度迅猛增长,对
其半结构化病历文档进行信息抽取具有十分重要意义。本文研究目的是加强非结构化病历文
档理解,针对半结构化病历文档的特点,介绍一种信息抽取工具及其信息抽取流程,最后,
以肿瘤病人信息抽取为案例进行实证应用研究。
关键词 电子病历 半结构化病历 信息抽取 肿瘤信息登记
1 背景
电子病历内容描述和存储主要包括结构化(表格化)、半结构化 (自由文本)和无结构
化(如图片、视频文件)三种信息模式,结构化病历具有书写方便、数据标准化、方便数据
检索的优点,能为循证医学、科研、教学提供便捷的信息支持,但对病历书写者的编辑操作
有较大的约束作用,半结构化病历接近多样化的词语的自然语言结构,符合医生临床思维习
惯和病历内容描述,但其存储和查询不便,特别是为后期临床知识发现带来了诸多不便。
近年,虽然许多研究机构尝试通过结构化病历记录病历,但是由于存在对完全的结构化
病历能否完整和真实的表达临床意思的质疑,以及结构化粒度的增加会降低临床人员阅读效
率等原因,目前多数病历仍以结构化与半结构化并用方式表达和存储病历[1]。
中山市人民医院自2005 年开始启用电子病历,至今产生约33 万份电子病历,这些电子
病历主要包含结构化和半结构化病历文档两部分,随着现代医学快速发展和医院信息化纵深
发展,如何充分利用这些海量并不断增长的半结构化病历文档信息,已成为我院面临的重要
挑战之一。
2 结构化和非结构化病历文档
结构化病历文档是指从医学信息学的角度将以自然语言方式录入的医疗文书按照医学
术语的要求进行结构化分析,并将这些语义结构最终以关系型(面向对象)结构的方式保存
到数据库中,常见的结构化病历有如医嘱单、体格检查表、病案首页等。
半结构化病历文档,就是介于结构化病历文档和无结构数据文档(如手术录像视频、知
情同意书扫描图片等)之间的数据,比如病程记录、病史、影像报告单诊断描述等属于半结
构化病历文档,它一般是自描述的,数据的内容和结构混合在一起,没有明显区分,比如颅
脑CT 影像描述,结构和内容没有明显区分:
例一:颅脑CT 平扫未见明显异常。
例二:1、后枕部头皮血肿,余颅脑CT 平扫未见明显异常。2、较低层面可见双侧上颌
窦及筛窦炎。
3 信息抽取工具
信息抽取是一种面向具体任务的实用的文档理解技术,它直接从自然语言文本中抽取
事实信息,并以结构化的形式描述信息,供信息查询、文本深层挖掘、自动回答问题等之用
[2-3] 。信息抽取工具对于从大量的非结构化病历文档中抽取需要的自由文本信息来说是非常
有用的,信息以统一的形式集成在一起有两个主要优势,一是方便检查和比较,二是能对数
据作自动化处理,例如用数据挖掘方法发现和解释数据模型[4]。
信息抽取工具通过数据接口,访问电子病历数据库,从电子病历数据库中将半结构化
病历文档载入到信息抽取工具中。在信息抽取工具中定义关键字和规则库,再针对这些半结
构化数据,进行结构化数据的抽取,然后把抽取结果转换成结构化的数据进行存储,最后再
把结果导出或者传输到关系数据库中,流程图见图1。
4 信息抽取流程
第一步:数据载入,信息抽取工具通过数据接口,访问电子病历数据库,从电子病历数
据库中将半结构化病历数据载入到信息抽取工具。
第二步:关键字提取(分词),要识别半结构化病历,需要把句子切分为一个个的词,
为提高分词效率,信息抽取工具可以随取抽取一部分数据(比如500 条记录)作为样本数据
进行分词,然后再统计各分词的出现频率,以辅助下一步定义关键字。
第三步:关键字定义,在关键字定义页面维护进关键字和语义。结合用户信息抽取需求,
关键字和语义可以由用户在分词结果 (比如出现10 次以上的词)里筛选或者自定义输入。
第四步:规则库定义,在规则维护页面维护判断规则和目的表字段,首先用户用关键字
和语义定义判断规则,标识感兴趣的数据项,如条件= “包含”,值= “骨折”,关系= “与”;
其次,把数据项映射到目的表字段作为信息抽取输出结果,这个过程也称为模式映射。
第五步:
您可能关注的文档
最近下载
- Unit 1 Fun numbers and letters (说课稿)-2024-2025学年人教PEP版(一起)(2024)英语二年级上册.docx VIP
- 印刷成本核算方式.docx VIP
- 森林防火教学课件.ppt VIP
- 二级保密资格档案目录(24盒)优质材料.doc VIP
- 2025水利工程五大员专业题库(含答案).docx VIP
- 图书馆业务知识培训ppt课件.pptx VIP
- 传感器智能传感器与无线传感器网络技术.pptx VIP
- 中国共产党基层组织选举工作条例学习宣贯ppt课件.pptx VIP
- 游消费者行为学(第二版)孙九霞全套PPT课件.pptx
- 东芝 e-STUDIO 2000AC 2500AC 彩色复印机维修手册(拆卸安装篇).pdf VIP
文档评论(0)