基于半监督学习的中文电子病历分词和名实体挖掘-计算机科学与技术专业论文.docxVIP

基于半监督学习的中文电子病历分词和名实体挖掘-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 Classified Index: 391.1 : 638.1 Dissertation for the Master Degree in Engineering WORD SEGMENTATION AND NAMED ENTITY MINING BASED ON SEMI SUPERVISED LEARNING FOR CHINESE EMR Candidate: Zhang Libang Supervisor: Guan Yi Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: June, 2014 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 摘 要 电子病历是由医务人员撰写的面向患者个体的描述医疗活动过程的数字化 记录,是传统纸质病历的替代品。电子病历包含了关于病人个体健康信息的全 面、详实、专业、即时、准确的描述,是一种非常宝贵的知识资源。通过分析 和挖掘电子病历,可以从中获得大量与患者密切相关的医疗知识。这些知识可 应用于构建临床决策支持系统和提供个性化健康信息服务。电子病历并非完全 结构化的数据,其中自由文本形式的非结构化数据在电子病历中占有重要地位。 因此,分词和名实体识别等自然语言处理技术将在电子病历知识挖掘中发挥重 要作用。 目前最有效的分词和名实体识别方法是基于词典或有监督机器学习的方法。 但由于电子病历的专业性,人工构建专业词典或训练语料的难度极大。为了克 服获取熟语料困难的问题,本文分别提出了基于半监督学习的中文电子病历分 词和名实体挖掘方法。 大量的未登录词是中文电子病历分词所面临的的最大挑战,它们通常是医 疗专业术语及缩写。本文将电子病历分词分为两个步骤。首先,使用开放领域 词典,根据最大似然原则对电子病历进行初步的切分。其中,词的出现概率由 EM 算法从大规模未标注语料中学习得出。然后,利用字串的边界熵、长度等 信息,通过有序聚类算法对初步切分结果进行调整,以达到识别未登录词的目 的。实验结果表明,该方法是可行的,具有较强的识别未登录词的能力,其效 果优于基于边界熵的无监督分词。 与开放领域文本相比,中文电子病历文本具有很多不同之处,主要体现在 使用半结构化的方式组织各部分内容以及语言简洁且模式化较强这两个方面。 针对这些特点,文本提出了分而治之的处理策略,即利用文本模式从病历的不 同部分挖掘不同类型的实体。其中,文本模式由 Bootstrapping 算法利用少量已 标注的实体从大规模未标注语料中学习得出。实验结果表明,该方法在挖掘疾 病类实体时效果较好,但在挖掘治疗和药品时效果较差,仍需进一步改进。 关键词:电子病历;半监督学习;EM 算法;有序聚类;Bootstrapping 算法 I - Abstract Electronic medical records(EMRs) are digitized records written by the medical staff for the individual patients medical activities. They are the alternative to the traditional paper-based medical records. EMRs contain comprehensive, informative, professional, real-time, accurate description about individual patients’ health. It is a very valuable knowledge resource. Through analysis and mining of electronic medical records, we can derive a lot of medical knowledge which are closely related to patients. These knowledge can be used to build clinical decision support systems and provide personalized health information services. EM

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档