- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
Classified Index: 391.1
: 638.1
Dissertation for the Master Degree in Engineering
WORD SEGMENTATION AND NAMED ENTITY MINING BASED ON SEMI SUPERVISED LEARNING FOR CHINESE EMR
Candidate: Zhang Libang
Supervisor: Guan Yi
Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology
Affiliation: School of Computer Science and Technology
Date of Defence: June, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
摘 要
电子病历是由医务人员撰写的面向患者个体的描述医疗活动过程的数字化 记录,是传统纸质病历的替代品。电子病历包含了关于病人个体健康信息的全 面、详实、专业、即时、准确的描述,是一种非常宝贵的知识资源。通过分析 和挖掘电子病历,可以从中获得大量与患者密切相关的医疗知识。这些知识可 应用于构建临床决策支持系统和提供个性化健康信息服务。电子病历并非完全 结构化的数据,其中自由文本形式的非结构化数据在电子病历中占有重要地位。 因此,分词和名实体识别等自然语言处理技术将在电子病历知识挖掘中发挥重 要作用。
目前最有效的分词和名实体识别方法是基于词典或有监督机器学习的方法。 但由于电子病历的专业性,人工构建专业词典或训练语料的难度极大。为了克 服获取熟语料困难的问题,本文分别提出了基于半监督学习的中文电子病历分 词和名实体挖掘方法。
大量的未登录词是中文电子病历分词所面临的的最大挑战,它们通常是医 疗专业术语及缩写。本文将电子病历分词分为两个步骤。首先,使用开放领域 词典,根据最大似然原则对电子病历进行初步的切分。其中,词的出现概率由 EM 算法从大规模未标注语料中学习得出。然后,利用字串的边界熵、长度等 信息,通过有序聚类算法对初步切分结果进行调整,以达到识别未登录词的目 的。实验结果表明,该方法是可行的,具有较强的识别未登录词的能力,其效 果优于基于边界熵的无监督分词。
与开放领域文本相比,中文电子病历文本具有很多不同之处,主要体现在 使用半结构化的方式组织各部分内容以及语言简洁且模式化较强这两个方面。 针对这些特点,文本提出了分而治之的处理策略,即利用文本模式从病历的不 同部分挖掘不同类型的实体。其中,文本模式由 Bootstrapping 算法利用少量已 标注的实体从大规模未标注语料中学习得出。实验结果表明,该方法在挖掘疾 病类实体时效果较好,但在挖掘治疗和药品时效果较差,仍需进一步改进。
关键词:电子病历;半监督学习;EM 算法;有序聚类;Bootstrapping 算法
I -
Abstract
Electronic medical records(EMRs) are digitized records written by the medical staff for the individual patients medical activities. They are the alternative to the traditional paper-based medical records. EMRs contain comprehensive, informative, professional, real-time, accurate description about individual patients’ health. It is a very valuable knowledge resource. Through analysis and mining of electronic medical records, we can derive a lot of medical knowledge which are closely related to patients. These knowledge can be used to build clinical decision support systems and provide personalized health information services. EM
您可能关注的文档
- 基于半导体异质结thz激光器的辐射机理研究-无线电物理专业论文.docx
- 基于半导体制冷技术的高精密温度控制系统研究-测试计量技术及仪器专业论文.docx
- 基于半导体制冷技术的激光器恒温控制仪的应用研究-测试计量技术及仪器专业论文.docx
- 基于半导体制造业的生产设备产能跟踪系统-计算机技术专业论文.docx
- 基于半定规划问题的算法及其应用研究-运筹学与控制论专业论文.docx
- 基于半定量的A重工集团信息安全应用-工商管理专业论文.docx
- 基于半定松弛的数字水印共谋攻击检测算法研究-通信与信息系统专业论文.docx
- 基于半刚性基层沥青路面温度场和温度应力数值模拟的研究-土木工程专业论文.docx
- 基于半刚性温敏性无规共聚物的合成与表征-高分子化学与物理专业论文.docx
- 基于半胱氨酸与重金属离子相互作用的分析应用研究-分析化学专业论文.docx
- 基于半监督学习的中文短文本分类研究-情报学专业论文.docx
- 基于半监督学习和区域特性的图像分割算法研究-电路与系统专业论文.docx
- 基于半监督隐马尔科夫的汉语词性标注研究-计算机应用技术专业论文.docx
- 基于半监督优化分类的入侵检测方法研究计算机应用技术专业论文.docx
- 基于半监督优化分类的入侵检测方法研究-计算机应用技术专业论文.docx
- 基于半结构化文本信息抽取的简历识别系统-计算机应用技术专业论文.docx
- 基于半解析砰击理论的棱柱滑行艇“海豚运动”发生界限研究-流体力学专业论文.docx
- 基于半绝对离差的风险投资组合决策模型-概率论与数理统计专业论文.docx
- 基于半可信第三方的数字水印协议及其应用研究-计算机软件专业论文.docx
- 基于半强制分红政策背景的上市公司现金分红行为研究-金融学专业论文.docx
文档评论(0)