电子病历的命名实体识别方法.pptx

下载文档 降价啦

1100
0
约7.97千字
约 42页
2018-08-22 发布于上海
举报
版权申诉
保障服务

电子病历的命名实体识别方法.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

面向电子病历的命名实体识别方法技术创新，变革未来报告大纲背景及意义问题定义常用方法介绍相关评测及公开数据集最新研究工作思考与展望背景及意义——开放领域互联网用户文本语义搜索精准化搜索采集信息提问、log结构化数据答案非结构化数据NLP理解用户问答系统信息抽取理解文档智能交互智能化搜索结构化数据细粒度挖掘抽取信息背景及意义——开放领域将非结构化文本转换成结构化知识信息抽取（IE）命名实体识别共指消解、关系抽取清华大学清华清华学堂清华学校清华大学，简称清华，旧称清华学堂、清华学校，位于中国首都-北京市，始建于1911年，是教育部直属的一所全国重点综合性大学。清华大学，简称清华，旧称清华学堂、清华学校，位于中国首都-北京市，始建于 1911年，是教育部直属的一所全国重点综合性大学。机构成立时间文本知识位置关系1911年附属关系中国首都北京市教育部开放领域命名实体识别（NER）□ 任务定义清华大学/O，简称清华/O，旧称清华学堂/O、清识别字符串边界归类到预定义类别□ MUC-6首次提出华学校/O，位于中国首都/L-北京市/L，始建于1911 年/T，是教育部/O直属的一所全国重点综合性大学。IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC、ACE等预定义类别实体类：人名、地名、组织机构名。。。时间类：时间、日期。。。数字类：货币、百分比。。。常见工具：Stanford NER，Fundan NERF1：91%趋于成熟背景及意义——电子病历命名实体识别临床智能支持信息抽取循证医学研究海量电子病历文本疾病监控语义化……医生专业知识患者健康信息医疗实体识别是实现电子病历语义化的基础电子病历命名实体识别的挑战电子病历文本的非规范性和专业性非规范的语法、拼写错误、不完整的句子结构包含大量专业术语、受控词汇、缩略语、符号等特殊的文法和句法医疗实体的独特性嵌套、结构化跳跃、非连续标注语料的稀缺性电子病历数据难以公开：患者隐私和保密性要求标注成本高：医疗专家的指导和参与非连续实体拼写错误（错别字）嵌套实体句子语法成分不完整电子病历实体类别隐私信息（PHI）去隐私化需求患者、医生以及医疗机构的名称、编号、住址等……医疗实体疾病、症状、检查、治疗、药物等属性及修饰成分药品属性：剂量、施治方式、施治频次、施治持续时间等疾病与症状修饰成分：当前的、否认、既往史、非患者本人、待证实等.时间信息治疗和病情发展的时序性与医疗事件和实体相关的时间表达式形式化问题定义NER 序列标注输入：电子病历文本：?? =预定义类别： ?? =输出：??1, ??2, ? ??|??|??1, … ?? ??词序列疾病、症状、治疗、药物等标签序列：?? = ??1, ??, ? ??|??|???? ??? ∈ ??, ??? ∈ ?? ?B: Begin I: Inside O: Other复合标签：???? ∈ ?? =?? ∪ {??}, ?? = {??, ??, ??}序列标注示例患者因上腹部隐痛不适 3 月于 2014 年 4 月O O O Ab Ai Ai Sb Si Sb Si O O O O O O O就诊我院门诊，行胃镜病理示低分化腺癌，O O O O O O O O Tb Ti Ti Ti O Db Di Di Di Di后入住我院胃肠外科于 2014 年 5 月 6 日O O O O O O O O O O O O O O O O在全麻下予行根治性远端胃大部切除、O O O O O O Pb Pi Pi Pi Pi Pi Pi Pi Pi Pi O毕 I I 式吻合术， A解剖部位 S症状 T检查检验 D疾病 P手术 Pb Pi Pi Pi Pi Pi Pi O电子病历命名实体识别方法归纳及对比方法说明优点缺点基于字典和规则的方法手工构造规则模板；模式和字符串匹配；依赖字典的建立；规则匹配语言特征时性能优异；无需标注数据；依赖专家；规则定义复杂；难以移植；基于传统机器学习的方法传统模型：HMM、SSVM，CRF；特征工程；标注数据训练；可移植性强；性能优异；依赖标注数据的质量和规模；特征工程复杂；基于深度神经网络的方法表示学习：词嵌入模型+字符嵌入模型神经网络模型：CNN+RNN；；无复杂特征工程；性能逼近传统方法；受限于大规模医疗语料仍然依赖外部词典；标注工具cTAKEs、MetaMap、ConText借助海量词典；适合集成到其他模型仅适用于英文基于传统机器学习的方法常见模型隐马尔可夫模型（HMM）决策树(Decision Tr

您可能关注的文档

文档评论（0）

智慧IT + 关注: 实名认证

内容提供者

微软售前技术专家持证人

生命在于奋斗，技术在于分享！

咨询Ta 进入空间

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

更多 >

电子病历的命名实体识别方法.pptx