生物医学文本挖掘技术研究与进展.docVIP

下载本文档

23
0
约1.14万字
约 22页
2018-09-15 发布于福建
举报
版权申诉

生物医学文本挖掘技术研究与进展.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物医学文本挖掘技术研究与进展

生物医学文本挖掘技术研究与进展　　摘要：生物医学研究是二十一世纪最受关注的研究领域之一，该领域发表了巨量的研究论文，已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识，是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索，近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果，即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取，以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状，最后对该领域近期发展作了展望。　　关键词：计算机应用；中文信息处理；生物信息学；文本挖掘；信息抽取；机器学习　　中图分类号：TP391　文献标识码：A 　　　　1　引言　　　　当前，生物医学领域的研究正在飞速发展，大量的生物医学知识以非结构化的形式存在于各种形式的文本文件中。国际上生物医学领域的权威数据库MEDLINE(Medical Literature Analysis and Retrieval System Online)的文献总数目前已达到1600万篇，近年来年均发表文献超过60万篇。如何才能有效地利用这些文本中所蕴含的生物医学知识无疑对分析海量的生物医学数据是非常重要的。常用方法是通过关键词在MEDUNE中或者互联网上进行检索，但是这只能从大量文档集合中找到与用户需求相关的文件列表，而不能从文本中直接获取用户感兴趣的事实信息。因此，提供从大规模生物医学文献中自动获取相关知识的有效工具是一项迫在眉睫的任务。　　文本挖掘技术在文本知识自动获取中起到了重要作用。文本挖掘通常包括信息检索、信息抽取、数据挖掘三个步骤。其中信息检索(Information Retrieval，IR)用于识别相关文本，信息抽取(Information Extraction，IE)用于识别实体、关系、事件等信息，数据挖掘(Data Mining，DM)则从结构化信息中识别出相互间的关联。生物医学文本挖掘的研究重点主要由信息抽取和数据挖掘两方面的研究组成。具体来说，包括生物医学领域命名实体识别、同义词和缩写词识别、关系抽取、利用推理进行关系抽取的假设生成、文本分类以及上述工作的集成框架等。该领域研究的主要方法是通用的机器学习方法、领域知识、面向任务的前处理和后处理技术的相互结合。　　文本挖掘在生物医学领域中的应用，可以提高生物医学信息建设和管理的效率。生物医学数据库的建设是最早推动生物医学文本挖掘的动力。通过信息抽取技术可以建设以疾病诊断、药物设计为目的的专用蛋白质作用关系数据库。例如建设特定疾病如乳腺癌、老年痴呆症的蛋白质作用关系相关数据库。通过数据库描述的蛋白质作用网络，将极大地有利于疾病诊断、药物设计，促进相关生物医学研究的进展。近年来文本挖掘技术在生物医学领域中的应用多是通过挖掘文本发现生物学规律，例如基因、蛋白质及其相互作用的关系，进而对大型生物医学数据库进行自动注释。例如：现有研究成果已经可以对蛋白质数据库加注功能关键词，并利用这项功能发现大分子问的相互作用关系。使用标准词汇对实验数据统一标注，架起了生物医学文献与生物医学实验数据的桥梁。借助生物医学文本挖掘技术进行数据标注的方法，广泛应用在功能基因组学数据上。经过人手工核对，正确的标注信息将赋予实验数据，有效的文献信息也将作为标注依据链接到实验数据。　　生物医学文本挖掘的更大意义在于可以通过对文本分析研究帮助人们发现在文本中隐含的知识，从文献中挖掘出来实验假设和实验建议，以便生物学家验证得到新的科学发现，从而提高人们对生物医学现象的认识。例如，运用分子生物学文献的信息抽取技术来分析海量的生物医学数据，可以帮助分子生物医学专业人员理解分子生物学实验数据，研究分析实验结果。　　生物医学文本挖掘是生物信息学研究的分支之一，是生物学研究中不可缺少的环节，它汇集着具有不同专业背景研究者的共同努力，推动和促进了生物医学的发展，对实现疾病的辅助诊断、预防和治疗，新药的辅助发现等起到了重要的作用，为人类对生命的探索做出了重要贡献。生物医学为文本挖掘技术提供了大量的验证数据，对文本挖掘技术起到了反推动作用。这是一种跨学科性研究，涉及到自然语言处理、机器学习、生物信息学等方面的技术，非常具有挑战性。目前，该研究领域吸引了来自计算语言学、生物信息学、机器学习等方面研究者的广泛关注，本文侧重介绍生物医学命名实体识别、缩写词和同义词识别、生物医学实体关系抽取、建立相关资源以及技术评测等。　　　　2　命名实体识别　　　　生物医学文本挖掘的基本任务之一是生物医学命名实体识别(Biomedical Named：Entity Recogn