基于迁移学习和词表示的蛋白质交互关系抽取-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约5万字
约 53页
2019-07-13 发布于上海
举报
版权申诉

基于迁移学习和词表示的蛋白质交互关系抽取-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究生优秀毕业论文大连理工大学硕士学位论文摘大连理工大学硕士学位论文摘要作为生物医学信息抽取领域的重要分支，蛋白质交互关系抽取(Protein-Protein Interaction(PPI))是构建蛋白质关系网络的前提条件，具有至关重要的研究意义。目前的PPI研究大多采用统计机器学习的方法，取得了较好的效果。但现有的机器学习方法在PPI抽取任务上仍存在两个亟待解决的难题：标注数据匮乏问题和特征表示时的“数据稀疏”和“数据鸿沟”问题。首先，己标注数据不足会导致模型的抽取效果下降，而在生物医学领域，人工标注数据往往需要大量的、昂贵的实验；另外，传统机器学习方法在特征表示时普遍采用独热码(One—Hot Code)编码方式，忽略了语序和语法等信息，不能表达出词汇问的语义关联信息，限制了PPI抽取精度的提高。针对上述两个问题，本文分别从以下两个方面进行了研究： (1)将基于实例的迁移学习方法TrAdaboost引入到PPI抽取任务中，并在此基础上提出了一种改进的DisTrAdaboost算法。由于不同领域间数据分布存在差异， TrAdaboost算法容易因收敛速度过慢而产生负迁移，而改进的DisTrAdaboost算法借助于实例的相对分布来调整初始权重，可以有效地避免负迁移。实验结果表明，在公共语料库AIMed上，TrAdaboost算法和改进的DisTrAdaboost算法均获得了明显优于基准算法的性能：同样方法在语料库IEPA上实验时，TrAdaboost算法发生了负迁移，而改进的DisTrAdaboost算法仍保持良好的迁移效果。 (2)提出了一种基于词表示的特征表示方法，用于解决PPI抽取中的“数据稀疏” 和“数据鸿沟”问题。本文使用词表示方法从大量无标记数据中无监督地学习潜在语义信息，根据语义信息将单词映射成向量空间中的向量或者将语义相似的单词聚为一类，使得语义相近的单词具有相似的空间分布，进而解决“数据稀疏”和“数据鸿沟”问题，提高PPI抽取性能。本文使用了三种词表示方法：分布式词表示方法、基于向量的聚类方法和布朗聚类方法用于提升蛋白质关系抽取任务的效果。实验结果显示，分布式词表示方法在五个公共语料库：AIMed，Biolnfer，HPRD50，IEPA和LLL上效果均优于其他两种聚类方法，并且F．值分别达到了69．7％，74．0％，78．0％，76．5％和87．3％，高于其他现有的蛋白质关系抽取系统。关键词：蛋白质交互关系抽取；负迁移；迁移学习；数据稀疏；数据鸿沟；词表示万方数据基于迁移学习和词表示的蛋白质交互关系抽取Protein-Protein 基于迁移学习和词表示的蛋白质交互关系抽取 Protein-Protein Interaction Extraction Based on Transfer Learning and Word Representation Abstract As a fundamental part of biomedical text miIling technology，Protein-Protein Interaction (PPI)extraction has great research significance and application value，and has received increasing aRemion by researchers in recent years．rnle current research on PPI generally adapts the statistical machine learning method，and has achieved acceptable results．However， the current methods still suffers from two di伍cult questions：one iS the lack of the annotated data；the other is vocabulary gap and data sparseness in feature expression．Firstly，the insufficiency of t11e annotated data will lead to lower efficiency．and the manual data-tagging usually requires large and expensive experiments；then，the One-Hot encoding，which is widely used in traditional machine lea