中文诊断文本的ICD自动编码实证研究.pdfVIP

  • 98
  • 0
  • 约12.29万字
  • 约 95页
  • 2021-02-04 发布于江西
  • 举报

中文诊断文本的ICD自动编码实证研究.pdf

摘 要 摘 要 《国际疾病分类》(International Classification of Diseases ,ICD )是由世界卫生 组织制定和颁布的关于疾病和死亡统计的全球标准分类。按照我国卫生部的要求, 住院病人病案首页的疾病诊断都应该按照 ICD-10 的标准进行编码,诊断的编码质量 直接影响疾病分类的准确性,是后续医学统计、单病种管理等的基础。但在医疗实 践中,由于编码规则繁杂、编码过程具有试验性和循环特征,加上编码人员培训不 足、专业编码员稀缺,使得目前各级卫生机构的 ICD 编码工作的效率以及准确性均 难以保证。为了辅助编码人员的编码工作,已有学者致力于研究中文语境下的自动 编码,但是较于英文语境下的自动编码,中文诊断文本的自动编码研究在范围上和 深度上仍然较为局限。 基于此,以简化编码工作、提高编码员的编码效率为研究目标,本文对于“中 文诊断文本的 ICD 自动编码”,即“在中文语境下利用计算机的技术辅助完成诊断 的 ICD 编码”进行了全面的实证研究。具体地,文章从算法、数据、实验以及系统 开发四个层面展开。 首先,在算法层面,对于解决所定义的自动编码的两种可行算法:基于实例的 方法和基于机器学习的方法的具体解决思路进行了系统性地介绍和分析。在数据层 面,主要包括提供诊断编码关系的人工编码历史库以及用于嵌入式词向量训练的语 料库。此外,考虑到现有数据的有限性,利用网络爬取对数据集进行了相应扩充。 进一步地,基于上述数据,在实验部分通过设计一系列实验对算法的有效性进行了 验证和比较,并在自动编码的任务情境下初步探究了中文医疗文本处理任务中存在 的一些普遍性问题,包括相似性函数的选择与设计、特定领域语料库缺乏的情况下 用一般的语料库替代特定领域文本语料库的可行性、以及在分词准确性难以保证的 情况下分词的必要性。最后,在系统开发层面,为了更好地服务于 ICD 自动编码实 践,综合本研究提出的模型、经扩充后的数据集以及实验结果,本文进行了自动编 码的需求分析、系统设计、以及系统实现。ICD 自动编码系统的开发完成标志着 “ICD 自动编码研究”执行层面工作的完成。 关键词:国际疾病分类系统;自动编码;自然语言处理;机器学习 I 目录 目 录 第1 章 引言 1 1.1 研究背景 1 1.2 研究问题及目标 3 1.3 研究意义 3 1.4 研究框架4 1.5 论文结构 5 第2 章 文献综述与相关理论 6 2.1 国内外研究综述 6 2.1.1 国外相关研究综述 6 2.1.2 国内相关研究综述 7 2.2 基本理论与技术 8 2.2.1 国际疾病分类(ICD ) 8 2.2.2 文本表示 10 2.2.3 文本分类 13 2.2.4 机器学习 17 2.2.5 深度学习20 2.3 本章小结24 第3 章 ICD 自动编码任务算法综述25 3.1 任务界定25 3.2 算法概述25 3.3 基于实例的方法26 3.3.1 概述26 3.3.2 相似性函数的设计与选择27 3.4 基于机器学习的方法 30 3.4.1 概述 30 3.4.2 基于传统机器学习的方法 31 3.4.3 基于深度学习的方

文档评论(0)

1亿VIP精品文档

相关文档