网站大量收购闲置独家精品文档,联系QQ:2885784924

面向生物文本挖掘的语义标注研究.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2015 年7 月 Jul. ,2015 湖北文理学院学报 第36 卷第7 期 Journal of Hubei University of Arts and Science Vol. 36 No.7 面向生物文本挖掘的语义标注研究 陈波l 气吕晨2 ,魏小梅2 (1.湖北文理学院文学院,湖北襄阳 441053; 2. 武汉大学计算机学院,湖北武汉 43∞72) 摘要:文章提出了一个新颖的模型一一基于特征结构的递归有向图,将其用于描述英文 生物文本中定语后直的语义关系。后直定语的用法是复杂多变的,主要有三类情况:现在分词充 当后直定语,过去分词充当后直定语,介词短语充当后直定语,这为自动分析带来很多难题。我 们总结和标注了这三类后直定语的语义信息。与依存结构相比,特征结构可以形式化为可递归 的有向图,标注结果表明递归有向图更适合与生物文本挖掘中的复杂语义关系抽取。 关键词:生物文本挖掘;语义标注;递归有向图;后直定语 中图分类号:TP30 1 ,H085 文献标志码:A 文章编号:2095 -4476(2015 )07 -∞29 -04 生物文本的语义标注在生物文本挖掘和信息抽取领域非常重要。它有助于提高自动检索的精度和有 效性[1 -3J 。但是,不含语义信息的资源为进一步的实体识别和关键词提取带来了很多难题,而这些信息是医 生亟需的,比如:基因表观遗传学(Gene Epigenetics) 、肿瘤(Oncology )等。 近年来,语义标注在生物标注领域越来越受到重视[4-6J 。面向生物文本挖掘(Biomedical Text Mining) , 本文提出了一个新的语义表示模型递归有向图。该模型可以很好地描述或推导出生物文本复杂句型中 的生物概念关系。本文致力于建构一个大规模的标注生物语料库一一the biomedical token semantic associa- tion ( bioTSA) ,可以表示出文本中所有词语(tokens) 的语义关系。该语料库的语料数据来源于 BioN四2009 公开评测任务和 BioNLP2013 GE 公开评测任务的训练集。 当前依存结构是最流行的分析方法之一,基于依存结构的许多文本分析研究都取得了很大的进展[7 -8J 。 其他相关的标注研究,例如 Kulick[2 J Framework ,集成了树库(Treebank) 和命题库(Propbank) ,包含了 研发的 J 句法结构和谓词论元结构;又如 Kim[3 研发的语义标注和事件标注系统。然而在分析生物文本时遇到了很 多难题,其中有很多特殊句式,例如:后置定语、复杂名词短语、动补结构等,很难分析出正确的中心词,这就 导致下一步的实体关系抽取的错误传播。 我们对面向生物文本的分析提出了一个新的方法一一递归有向图。在前期的工作中,我们已经耗费 [9] 了三年时间建构了一个基于特征结构的三万句规模的中文句子级语义标注语料库 ,它大大丰富了中文语 义资源。本文尝试运用递归有向图来进行英文的生物文本的语义标注。本文中,我们选取后置定语作为研 究对象。第一部分讨论了我们提出的标注方法;第二部分对生物文本中的后置定语句进行了标注;第三部 分总结了整个标注研究,包括标注数据、标注的一致性问题等;第四部分是结论。 一、递归有向固的语义标注 [

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档