- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
蚂蚁蛋白质的提取
蚂蚁蛋白质的提取
1、相关定义
1.1、PPI提取基本概念
取任务之前,先介绍下信息提取系统。信息提取 系统与信息检索、自动文摘等有实质性的区别,它从指定的文本集中提取用户感兴 趣的信息并以一定的格式输出。信息提取系统不仅是查找信息,而且代替用户理解 信息。如果仅仅利用信息检索系统并不能完成信息提取目标,信息检索只能找出满 足特定查询条件的整篇文档或片段,人们仍然需要阅读找到的文档和片段来获取所 需要的信息。此外,信息提取系统与自动文摘相比,是一个受限的信息处理过程, 要按照预先规定的信息模板来提取,因此信息提取更加注重系统的工程性和可操作 性。 蛋白质相互作用关系及其功能信息的提取是生物学家们非常关心的问题。在生 物体内,每个蛋白质不是单独地完成所赋予的功能,它们通常会与细胞中的其他蛋 白质相互作用形成一个复合体来完成特定的功能,甚至有些蛋白质的功能只有在形 成复合体之后才能显现出来。因此,研究这些相互作用关系和规律之后才能在真正 意义上理解蛋白质功能。虽然研究者们已经建立了一些蛋白质相互作用数据库,但 大量的有关信息仍然以自然语言文本的形式存在于文献中。蛋白质相互作用关系提 取的任务就是实现自动地从生物医学文献中提取出蛋白质相互作用关系,并以结构 化形式描述提取出来的信息,然后存储到数据库中供进一步的研究使用。 在生物医学领域,实体之间的关系特指一个对象作用于另一个对象的行为,或 一个对象与另一个对象之间的从属关系。例如一种蛋白质对另一种蛋白质的抑制行 为或一种蛋白质与某个蛋白质家族的从属关系等。目前大部分的生物医学关系提取 系统主要是提取特定的命名实体之间的二元关系,例如蛋白质与蛋白质的关系、基 因与基因的关系、蛋白质与疾病的关系等。所以,蛋白质关系提取的任务就是从PPI 语料库中提取存在相互作用的蛋白质实体对。以PPI语料库中的句子”We also found another armadillo-protein, p0071, interacted with PSl”为例,句中 p0071 和 PSl 这两 个蛋白质实体间存在相互作用关系,蛋白质关系提取系统的任务就是准确理解这种 语义并反馈这个事实。 8 t\领士学位论文 i/ MASTER’S THESIS 2. 2支撑技术 完整的蛋白质相互作用信息的挖掘过程应该包括五个模块:语料库预处理模 块、蛋白质命名实体识别(Protein Named Entity Recognition)模块、蛋白质相互作 用关系提取模块、蛋白质相互作用注释信息提取模块和蛋白质相互作用网络构建及 可视化模块[,如图232].1所示。目前,大部分研究都集中在命名实体识别和PK[提 取这两个模块上,本文的研究重点是PPI提取。 数据流 ““—I : ;丽I I 语料:文、~?本单元.? ? I~H /”?PPI功能注—(I 丨 一 I 卜-模块 :数据预处理丨 化 I接影响到后面PPI提取系统的性能。 因此,命名实体识别技术在生物文本挖掘中占据重要的地位。 命名实体识别技术的研究起步较早,其在新闻领域的应用中已取得了非常好的 效果,准确率可以达到90%以上,几乎接近人工识别的水平。然而,在生物医学领 域,生物命名实体识别远没有达到这个水平,原因是生物实体不像新闻领域中的实 体具有命名规范(人名)和数量稳定(地名)的特点,它们具有如下命名特征[32]: 9 额士学位论文 MASTER’S THESIS (1)描述性命名习惯:很多生物实体名称具有描述性,由多个单词组成,名 字很长,难以确定它的边界。 (2)同一实体多种变体:同一个实体可能有多种书写形式,例如:”immuno “globulin和”immuno-globuli”n指的是同一个蛋白质。另夕卜,有些功能 毫不相关的蛋白质可能出现同名的情况。 (3)实体名嵌套:有些实体名字符串可能包含其他生物实体名组成的子串, 例如:”TRKB”和”neurotrophin TRKB “receptor是两个不同的蛋白质 实体名,这种情况下也很难确定蛋白质命名实体的边界。 (4)大量缩写形式:很多生物学家喜欢在文章中用缩写来表示生物命名实 体,并且缩写方法也没有统一的规范,根据习惯的不同一般有以下两种, 一种是使用蛋白质全称中各单词的首字母组合来表示,这种表示方法会 出现不同的生物实体具有相同缩写的问题;另一种是根据单词的音节, 例如蛋白质”irmnunoglobuli”n的缩写就是”Igl”。 以上这些命名特征使得生物命名实体识别成为一项具有难度和挑战性的任务。 目前,生物命名实体识别方法主要包括以下三种:传统的基于字典的方法、基于规 则的方法和基于机器学习的方法。 基于字典的方法是最早使用的方法,也是最容易想到和最简单的方法。它采用 与字典匹配的方式
文档评论(0)