基于组合学习和自训练的生物医学事 件抽取研究.docVIP

基于组合学习和自训练的生物医学事 件抽取研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于组合学习和自训练的生物医学事 件抽取研究

?????? ????? ????? 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 摘 在生物医学事件抽取的研究中,机器学习的方法得到了广泛的应用。本文在研究过 程中主要利用了机器学习的方法对生物医学事件进行抽取,涉及到组合学习,模型自训 练以及核方法的机器学习方法。在事件的处理流程上采用了常用的文本预处理、事件触 发词检测、事件元素识别以及整体后处理的步骤。本文在生物医学事件触发词检测的阶 段采用了基于不同决策规则的学习器进行组合学习、使用模型自训练的方法在触发词检 测阶段引入了未标注语料实现半监督学习。在触发词的检测过程中,采用了建立触发词 字典来判断文档中词是否为候选触发词,对所选候选触发词进行特征提取进行分类任 务,确定候选词是否为触发词并指定相应的触发词类型。在事件元素检测的阶段,构造 触发词和蛋白质关系对,借鉴蛋白质交互关系抽取的方法对触发词蛋白质对之间的关系 进行检测。根据事件的定义类型将事件分为简单事件和复杂事件分别进行元素的检测。 在简单事件中直接鉴定触发词蛋白质的关系,在复杂事件中采用了先鉴定是否存在关系 再鉴定存在哪一种关系的方法。最终采用核函数的方法对触发词蛋白质对进行关系检 测,来确定事件的元素。 基于组合学习和自训练的生物医学事件抽取研究 ???? ???? ?? ???? ?????? ????? ????? ?? ? ?? ? ??? ? ?? ?????? ????? ? ??? ???.? ?? ??? ???琲???? ??? ? ?? ?? ? ? ??????? ?? ??? ? ? ?? ??? ??? ? ?????瓾???,? ? ???,? ?? ??? ??? ??.、耽 ? ?? ? ???‘? ??? ?? ??? ???? ???? ????????? ? ?? ? ????? ????? ??? ?? ????? ????:?????;?? 基于组合学习和白训练的生物医学事件抽取研究 目 ????....................????..................??.............??..................?..............................? ? ? 自训练方法算法及实验步骤???????????????..? ??基于核方法的事件元素检测??????????????????.? 图核??????????????????????????????????? 随着互联网和信息技术的应用和发展,当今世界的信息数量呈现指数级增长。与此 生物医学信息抽取的主要目的是从非结构化的生物医学文本中抽取出结构化的信 息,从而能够方便信息的管理、分析和查询。生物医学信息抽取相继出现了命名实体识 别、实体关系抽取以及生物医学事件抽取等相关子领域。并且随着命名实体识别系统性 能达到能够支持实际应用的标准,研究的重点开始向关系抽取和事件抽取转移。与关系 抽取只是抽取出一对有关系的实体对不同,事件抽取是要抽取出事件的完整信息,包括 事件的类型和参与事件不同实体的作用。生物医学事件抽取所完成的任务就是从非结构 化的生物医学文本中抽取出细粒度的信息。 生物医学事件抽取是在???’?共享任务【?恐惺状翁岢觥<?贛???琓??”, 调控类型??????等三类事件属于复杂事件,还有一类由于参与元素的特殊性属 到此次共享任务的影响,生物医学事件抽取成为了生物医学信息抽取领域的热点问题, 在此次任务之后有更多的生物医学事件抽取系统提出。两年之后举办的???’?【?共 享任务中,在???’?的语料基础上保留了全部的摘要并添加了部分全文。这既可以 测试当前系统性能较之前一次任务是否有所提高,同时又可以通过全文检测系统的通用 性。同时此次任务也在面向整个生物医学领域进行事件抽取进行了尝试。最终本次公开 基于组合学习和自训练的生物医学事件抽取研究 ?????等人使用 ??本文的工作 本文的对生物医学事件的处理过程采用了图尔库系统处理方式。在触发词识别阶段 主要是利用了丰富的特征和不同学习器的组合构建触发词检测模型,同时采用了自训练 的方法来引入未标注语料的信息来进行触发词检测的模型构建。在生物医学事件元素检 测的阶段利用核函数的方法来进行模型构建。核函数可以将低维线性不可分的问题转化 为高维线性可分的问题,是解决非线性分类的一个有效的方法,并且设计灵活可以根据 不同的需求选择不同的核函

您可能关注的文档

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档