临床文档结构化处理研究与系统实现-计算机科学与技术专业论文.docxVIP

临床文档结构化处理研究与系统实现-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密 □,在 年解密后适用本版权书。 本学位论文属于 不保密 □。 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 临床文档结构化处理研究与系统实现 摘 要 随着国内各大医院信息化建设进程的不断发展,各类临床信息 系统为医院积累了丰富的临床数据资源。临床数据中所包含的海量 医疗活动信息,不仅是医疗、教学、科研的第一手资料,同时也是 对医疗质量、技术水平、管理水平等进行综合评价的依据。想要对 临床数据进行分析和总结,首先需要对其中的叙述性医疗文本数据 进行处理。 传统对叙述性医疗文本数据的分析主要依赖人工处理,医生、 科研人员和管理员通过浏览和研读这类医疗文本数据,从中抽取出 所需要的信息。但在当前医疗大数据的背景下,呈几何级增长的诊 疗数据使得从中获取所需要的信息面临更多的困难。同时,大量的 非结构化医疗文本数据也成为医院之间信息共享的障碍。因此,对 非结构化临床医疗数据进行结构化处理研究具有极其重要的意义。 现有医疗文本数据的结构化处理可以分为以设计规范的病历系 统为主的前结构化处理和以利用自然语言处理技术为主的后结构化 处理两大类。为充分利用已有的历史临床数据资源,本文结合临床 医疗文本数据自身的特点,借助规则提取、文本聚类、统计分析等 技术手段,设计并实现了一个完整的医疗文本数据后结构化处理系 统,以支持非结构化医疗文本数据的自动化结构数据转换。 I 本文首先以临床文档中病理报告的巨检病理文本数据为例,归 纳总结出病理文本数据的层次结构和书写特点,并设计了整体的结 构化处理流程。在此基础上,本文设计了临床文档结构化处理系统 的总体框架,分别介绍了其三大核心模块:临床文档数据预处理模 块、病理样本描述模板提取模块和临床文档即时结构化模块,并对 各模块的主要功能和任务进行了详细阐述。 然后为解决病理样本描述模板的提取问题,本文建立了一个病 理样本名词库,并提出一种基于规则的指标名提取算法,通过词 库、词性以及字词在文本片段中的位置等信息综合筛选出病理文本 中的指标名。在此基础上,结合自定义的文本相似度计算方法,提 出一种基于词典的文本聚类算法,用以初步确定每个病理样本描述 模板成员的提取范围。再通过统计参数 IDF 和 C-value 值的筛选,得 到最终的病理样本描述模板。 最后,对新录入的临床医疗文本数据,通过套用现有的病理样 本描述模板,达到即时结构化的目的。同时,系统提供了反馈优化 功能,可以通过修改词库、向待处理库添加数据、修改规则参数甚 至修改模板文件来实现对系统的更新优化。 此外,本文提出的临床文档结构化处理系统采用 B/S 架构,使 用 web 技术实现了面向用户的界面操作接口,用户可以方便地通过 页面操作对系统进行模板训练和数据结构化处理操作。 为验证本文提出的结构化处理方法的可用性,本文在真实数据 集上进行测试。实验证明,经过本文提出的结构化处理方法处理, II 平均每条临床医疗文本数据的结构化正确率为 82.8%,对比实验也 再次证明了本方法的有效性。 关键词:临床文档,结构化,文本聚类,模板提取 III IV RESEARCH AND SYSTEM IMPLEMENTATION OF CLINICAL DOCUMENT STRUCTURING PROCESSING ABSTRACT With the continuous development of hospital information construction process, the various types of clinical information systems for hospitals has accumulated rich clinical data resources. The massive medical activity information contained in the clinical data is not only the first-hand information on medical treatment, teaching, scientific research, but also the comprehensive evaluation basis on medical quality, technical level, management

您可能关注的文档

文档评论(0)

jianzhongdahong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档