- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
研究生优秀毕业论文
大连理工大学硕士学位论文摘
大连理工大学硕士学位论文
摘 要
作为生物医学信息抽取领域的重要分支,蛋白质交互关系抽取(Protein-Protein Interaction(PPI))是构建蛋白质关系网络的前提条件,具有至关重要的研究意义。目 前的PPI研究大多采用统计机器学习的方法,取得了较好的效果。但现有的机器学习方 法在PPI抽取任务上仍存在两个亟待解决的难题:标注数据匮乏问题和特征表示时的“数 据稀疏”和“数据鸿沟”问题。首先,己标注数据不足会导致模型的抽取效果下降,而 在生物医学领域,人工标注数据往往需要大量的、昂贵的实验;另外,传统机器学习方 法在特征表示时普遍采用独热码(One—Hot Code)编码方式,忽略了语序和语法等信息, 不能表达出词汇问的语义关联信息,限制了PPI抽取精度的提高。
针对上述两个问题,本文分别从以下两个方面进行了研究: (1)将基于实例的迁移学习方法TrAdaboost引入到PPI抽取任务中,并在此基础
上提出了一种改进的DisTrAdaboost算法。由于不同领域间数据分布存在差异, TrAdaboost算法容易因收敛速度过慢而产生负迁移,而改进的DisTrAdaboost算法借助 于实例的相对分布来调整初始权重,可以有效地避免负迁移。实验结果表明,在公共语 料库AIMed上,TrAdaboost算法和改进的DisTrAdaboost算法均获得了明显优于基准算 法的性能:同样方法在语料库IEPA上实验时,TrAdaboost算法发生了负迁移,而改进 的DisTrAdaboost算法仍保持良好的迁移效果。
(2)提出了一种基于词表示的特征表示方法,用于解决PPI抽取中的“数据稀疏” 和“数据鸿沟”问题。本文使用词表示方法从大量无标记数据中无监督地学习潜在语义 信息,根据语义信息将单词映射成向量空间中的向量或者将语义相似的单词聚为一类, 使得语义相近的单词具有相似的空间分布,进而解决“数据稀疏”和“数据鸿沟”问题, 提高PPI抽取性能。本文使用了三种词表示方法:分布式词表示方法、基于向量的聚类 方法和布朗聚类方法用于提升蛋白质关系抽取任务的效果。实验结果显示,分布式词表 示方法在五个公共语料库:AIMed,Biolnfer,HPRD50,IEPA和LLL上效果均优于其 他两种聚类方法,并且F.值分别达到了69.7%,74.0%,78.0%,76.5%和87.3%,高于 其他现有的蛋白质关系抽取系统。
关键词:蛋白质交互关系抽取;负迁移;迁移学习;数据稀疏;数据鸿沟;词表示
万方数据
基于迁移学习和词表示的蛋白质交互关系抽取Protein-Protein
基于迁移学习和词表示的蛋白质交互关系抽取
Protein-Protein Interaction Extraction Based on Transfer Learning
and Word Representation
Abstract
As a fundamental part of biomedical text miIling technology,Protein-Protein Interaction (PPI)extraction has great research significance and application value,and has received increasing aRemion by researchers in recent years.rnle current research on PPI generally adapts the statistical machine learning method,and has achieved acceptable results.However, the current methods still suffers from two di伍cult questions:one iS the lack of the annotated data;the other is vocabulary gap and data sparseness in feature expression.Firstly,the
insufficiency of t11e annotated data will lead to lower efficiency.and the manual data-tagging usually requires large and expensive experiments;then,the One-Hot encoding,which is
widely used in traditional machine lea
您可能关注的文档
- 基于康复性条件下儿童医院景观设计方法研究-建筑学专业论文.docx
- 基于枚举策略的二倍体单体型重建算法研究-计算机应用技术专业论文.docx
- 基于敏感电极界面及电活性纳米探针构建的高灵敏电流型免疫传感器的研究-分析化学专业论文.docx
- 基于情景感知服务的旅游行程规划研究-信息管理与信息系统专业论文.docx
- 基于情感语义的图像特征提取、检索与分类研究-通信与信息系统专业论文.docx
- 基于情境相似性的组织间知识转移绩效的研究-企业管理专业论文.docx
- 基于连续小波变换的质谱数据特征识别-计算机技术专业论文.docx
- 基于情境上下文和社交网络的个性化推荐方法研究-软件工程专业论文.docx
- 基于抗震策略的建筑设计研究-建筑设计及其理论专业论文.docx
- 基于情感分析与垂直搜索引擎的新闻搜索、监控系统研究与设计研究-软件工程专业论文.docx
- 深度解析(2026)《SNT 0076-2018 进出口毛皮褥子检验规程》.pptx
- 小学语文阅读专项训练100题.docx
- 深度解析(2026)《SNT 0173-2018 出口食品中副溶血性弧菌检验方法》.pptx
- 深度解析(2026)《SNT 0188.6-2011 进出口商品衡器鉴重规程 第 6 部分:天平鉴重》.pptx
- 人民网医患关系专题.pptx
- 2025年5月基础心理学模考试题.pdf
- 深度解析(2026)《SNT 0212.1-2014出口动物源食品中二氯二甲吡啶酚残留量的测定》.pptx
- 面试技巧全套教程指南.pptx
- 高空清洁安全指南讲解.pptx
- 深度解析(2026)《SL 588-2013水利信息化项目验收规范》.pptx
最近下载
- 国网半结构化面试实例及解析.pdf VIP
- 网络与信息安全管理员职业技能竞赛理论考试题库300题(含答案).docx VIP
- 国网结构化面试资料.pdf VIP
- 国网企业文化基础知识考试题库.doc VIP
- 胰岛素皮下注射团体标准.pptx VIP
- 微机原理与接口技术试题库(答案)微机原理与接口技术试题库(含答案)微机原理与接口技术试题库(含答案)微机原理与接口技术试题库(含答案).doc VIP
- 《微机原理及接口技术》.doc VIP
- 2025年国网企业文化基础知识考试题库及答案.docx VIP
- 美商海盗船 鼠标 无线游戏鼠标 DARK CORE RGB PRO SE 使用说明.pdf
- 企业文化、电力与能源战略参考题库(多选题上).docx VIP
原创力文档


文档评论(0)