基于Tri―Training算法中文电子病历实体识别研究.docVIP

下载本文档

10
0
约8.29千字
约 14页
2018-08-28 发布于福建
举报
版权申诉

基于Tri―Training算法中文电子病历实体识别研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Tri―Training算法中文电子病历实体识别研究

基于Tri―Training算法中文电子病历实体识别研究　　摘要： ?P键词：中图分类号：文献标志码： A文章编号： 2095-2163（2017）06-0132-04 　　Abstract： Semisupervised learning is a method of machine learning combining supervised learning with unsupervised learning. It improves the result of model established by the labeled data with the use of unlabeled data， aiming to reduce the need of large amount of labeled data and the labor cost. In the field of Named Entity Recognition（NER） of Chinese electronic medical records， semi-supervised learning could be used to improve the training result of a few labeled data， due to the lack of enough labeled data， the professionality of medical texts and the high cost of manual annotation. This paper introduces the background of NER in Chinese electronic medical records and related researches of semisupervised learning， and applies the improved TriTraining algorithm to improve the effect of NER model of Chinese electronic medical records. 　　0引言　　信息技术的发展带来了各行业的信息化建设。医学信息系统在医院中迅速兴起，海量的电子病历也随之产生。越来越多的电子病历取代了传统纸质病历，不仅避免了实体介质易污损、病例易缺失造成的重复检查的困扰，也方便了资料在科室、医院等不同单位间的传递。　　近年来，随着人们对健康的关注，智能医疗成为研究热点。借助人工智能的医疗服务系统，可以减少目前由于医疗资源紧缺导致的看病难、医患关系紧张等问题。电子病历中包含了患者就医过程中，医务人员记录下的真实临床信息。如果能自动化识别电子病历中的宝贵信息，不仅能让患者随时了解自身健康状况，对未来的疾病风险有所了解与预防，还能为医疗决策支持、询证医学、疫情监测等实际应用提供可靠的数据支持。　　实体识别研究作为信息处理与数据挖掘的基础，是开展针对电子病历文本研究的前提[1]。但是，与开放领域的实体识别研究一样，中文电子病历的实体识别研究也需要大量标注语料。国内电子病历的实体识别工作才刚刚起步，缺少充足的标注语料，且标注语料的获取需要医学专业人员的手工标注，人工与时间成本高。因此，通过主动学习、半监督学习等方法，利用未标注数据对学习性能做进一步效果提升，成为近年来的研究热点。　　1相关研究　　命名实体识别作为医学自由文本数据中抽取信息并结构化的关键技术，一直是临床医学自然语言处理（NLP）的研究基础与热点。通用NLP领域的大量名实体识别方法被应用到了临床医学信息抽取领域，其中包括早期采用的基于词典与规则相结合的方法，和随着医疗信息语料库构建而兴起的基于机器学习的方法。在一系列公开测评任务中，基于机器学习的监督学习模型取得了较好的性能。　　Dingcheng Li等[2]对比了条件随机域（CRF）和支持向量机（SVM）两种模型，并结合SNOMED-CT词典进行了电子病历命名实体识别，其中SVM模型的F值只有0.64，而CRF模型F值达到了0.86。Jonnalagadd等[3]在基本特征的基础上，增加分布式语义特征，采用CRF模型对电子病历中的医疗问题、检查、治疗进行识别。de Bruijn等[4]在2010年美国国家集成生物与临床信息学研究中心（Informatics for Integrating Biology and the Bedside，I2B2）组织的概念识别及关系抽取评测中排名第一，其引入了UMLS、cTAKES、Medline等医学知识库与临床医学NLP系统作为特征，并采用Self-training方法扩大训练语