医学自然语言处理概述.pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
M e d i c a l N a t u r a l L a n g u a g e P r o c e s s i n g 医学自然语言处理概述 医学自然语言处理的基本任务 目 录 1 医学自然语言处理的基本技术 2 医学自然语言处理的典型问题 3 我院的实践与总结 4 01 医学自然语言处理的基本任务 主要用途、基本任务 医学自然语言处理的基本任务 主要用途 病历文本数据挖掘 医疗知识库构建 病历检索 …… NLP技术 电子病历 医学文献 临床指南 健康档案 …… 结构化、标准化 数据分析 统计分析 机器学习 疾病诊断模式 药物治疗模式 预后评价模式 …… 可分析的医疗数据 标准化的电子病历 医学知识库 整合后的健康档案 …… 临床应用 辅助诊疗系统CDSS 药物安全性检测 医疗政策决策支持 相似病历检索 应用实践 例: − 可见多发结节影,大小约 1 . 1 6 X 0 . 9 8 厘米 例: − 在“肌力4+级”中“+”表示“强” “头MRI+MRA示”中“+”表示“和” 医学自然语言处理的基本任务 例: − 胃胀反酸、泛酸、返酸 例 : “无意识障碍” − 无 | 意识 | 障碍 无 | 意识障碍 例: “细菌性痢疾” − 细菌 /n 性 /ng 痢疾 / n 名词 名词性语素 例: − 可见多发结节影,大小约 1 . 1 6 X 0 . 9 8 厘米 01 06 03 04 05 02 语义分析 06 分词 01 词性标注 02 实体识别 03 实体关系抽取 05 实体标准化 04 02 医学自然语言处理的基本技术 分词、词性标注、实体识别、实体关系抽取、语义分析 医学自然语言处理的基本技术 分词 分词是将一句话切分成一个个单词的过程 分词工具 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件 关键技术 基于词典的分词方法(机械分词法) 按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功 逆向最大匹配法 正向最大匹配法 双向匹配法 基于机器学习的分词方法 例: − “无意识障碍” 无意识 | 障碍() 无 | 意识障碍(✓) 医学自然语言处理的基本技术 设词典中词语长度的最大值为M 基于词典的分词方法 开始 从文档末尾开始扫描,取最末端的M个 字符作为匹配字段,查找字典 记录分词结果,对剩余的字符串继 续重复以上步骤 匹配成功 是 否 将字符串 长度减少1 是 剩余字串的长度为零 输出 例:“南京市长江大桥” 1. 设最长词为5 2. 在词典中匹配“市长江大桥” 3. 匹配失败,去掉最前面一个字“市” 匹配“长江大桥”,匹配成功 在词典中剩余字符“南京市”,匹 配成功 输出结果: 南京市 / 长江大桥 医学自然语言处理的基本技术 词性标注 在给定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动 词等 关键技术 基于词典的标注方法 先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注 基于规则的标注方法 ① 简单处理,得到初标注结果 ② 建立转换规则,修正错误 ③ 得到标注结果 例: 细菌性痢疾 胆囊壁明显增厚 细菌 /n 性 /ng 痢疾 /n 胆囊 /n 壁 /ng 明显 /a 增 /v 厚 /a 名词 名词性语素 例: 1.初标注:“他/r做/v了/u一/m个/q报告/v” 2.转换规则: 激活环境:该词左边第一个紧邻词的词性是量词(q), 左边第二个词的词性是数词(m) 改写规则:将该词的词性从动词(v)改为名词(n) 3.得到标注结果: “他/r做/v了/u一/m个/q报告/n” 医学自然语言处理的基本技术 实体识别 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药 物、症状、检查、手术操作、器官部位等 1组淋巴结、2组淋巴结、3组淋巴结 关键技术 基于规则的方法 正则法 例:清扫第1组,2组,3组淋巴结 正则表达式:“% [/d] + 组淋巴结” 基于机器学习的方法 词向量表示 将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号 数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法 例: “乙肝”表示为 [ 0 0 0 1 0 0 0 0 0 0 0 0…] ,“肝硬化”表示为 [ 0 0 0 0 0 0 0 0 1 0 0 0…] 医学自然语言处理的基本技术 基于机器学习的实体识别方法 例: 头颅CT检查显示腔隙性脑梗死 1.人工特征标注:头颅CT——检查手段;腔隙性脑梗死——疾病; 2. 训练:将字符转为向量表示,将分类标签id化,并进行特征提取,构建训练集特征向量 [ 0 0 0 0

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档