基于大规模文本的蛋白质交互关系自动提取研究计算机科学与技术专业论文.docxVIP

下载本文档

0
0
约6.68万字
约 61页
2019-02-20 发布于上海
举报
版权申诉

基于大规模文本的蛋白质交互关系自动提取研究计算机科学与技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

承诺书本人声明所呈交的硕士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本承诺书）作者签名：日期：南京南京航空航天大学硕士学位论文基于基于大规模文本的蛋白质交互关系自动提取研究 i i PAGE PAGE iv 摘要蛋白质作为生命活动的体现者并非孤立存在，而是通过相互的交互作用完成细胞中的大部分过程。蛋白质交互（Protein-Protein Interaction，PPI）网络的建立一直是研究生物过程关注的核心问题。因而由领域专家手工收集的 PPI 数据库纷纷建立。然而，随着生物医学文献的迅速增长，手工收集 PPI 信息远远不能满足研究的需要。目前，大量 PPI 信息仍隐藏在各种生物医学文献中。如何从这些文本中自动挖掘出 PPI 信息对于 PPI 网络的建立有着重要的意义。本论文从实际构建 PPI 网络的需求出发，针对目前蛋白质交互关系识别主要以单句为依据、依赖人工标注而导致训练集规模小等不足，提出了基于大规模文本的蛋白质交互关系自动提取两种方法。两种方法直接以目标蛋白质对为研究对象，以大规模文本为依据，对 PPI 的判定建立在更多的信息的基础上，直接利用已有的 PPI 数据库建立训练集而避免了人工标注的额外负担。其中一种方法采用了基于特征向量的机器学习方法，重点比较了四种对向量的特征进行加权和特征选择方案，实验取得了 75.89%的 F-Score 值。另外一种方法在关系相似性研究的框架下建立蛋白质之间的本质联系。从单词、短语结构、依赖关系三个角度抽取特征，建立向量空间模型来表示一对蛋白质之间的关系，最后根据两个向量之间的相似性对关系作出判断。并取得了 75.02%的 F-Score 值。关键词：蛋白质交互关系，大规模文本，特征提取，向量空间模型，关系相似性 ABSTRACT As the embodiment of life activities,proteins are not isolated.They complete the most of process of cells through the mutual interactions.The establishment of the protein-protein interaction(PPI) network has been the core issues of the research on biological process.Many databases of PPIs have been built by the domain experts.However,with the rapid growth of biomedical literature,manually collecting the complete PPI information is not realistic.At present,a large number of PPI information is still scattered in various biomedical literature.It is very important to automatically mine PPI information from the text for the establishment of PPI network. In order to meet the needs of constructing PPI network and address the problem of current PPI identification systems using single sentences as evidence,and often suffering from the heavy burden of manual annotation,in this thesis,two methods of automatic identification of PPI by searching large scale text are proposed.PPIs are identified based on clues extracted from large-scale text