线性B细胞表位预测的机器学习方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
线性B细胞表位预测的机器学习方法.doc

线性B细胞表位预测的机器学习方法   摘 要:生物学的新发现将极大地依赖于我们在多个维度和不同尺度下对多样化的数据进行组合和关联的分析能力,而不再仅依赖对传统领域的继续关注。在生物信息的存储、获取、联网、处理、浏览以及可视化等方面,都对理论、算法和软件的发展提出了迫切的需要,计算机科学也从生命系统中获得启示,产生了许多新概念,包括:决策树、随机森林、支持向量机、人工神经网络等等。这样的学科交叉丰富了各个相关领域,这将在未来的几十年中得到进一步发展。   关键词:生物学;信息;支持向量机   中图分类号:R392   在免疫学[1]中认为,表位才是抗原刺激机体免疫系统产生特异性免疫应答的真正部位。B细胞表位预测是表位预测的一个重要组成部分,大多数的研究是针对线性B细胞表位预测,通过组合抗原蛋白物理化学性质、结构性质、统计显著性度量等特征属性进行表位预测,并取得一定的研究成果。   1 抗原表位[6]的大小与相应抗体的抗原结合部位相适合   一般情况下,一个多肽表位含5~6个氨基酸残基;一个多糖表位含5~7个单糖;一个核酸半抗原的表位含6~8个核苷酸。一个抗原表位的特异性由组成它的所有残基共同决定,但其中有些残基在与抗体结合时比其它残基起更大作用,这些残基被称为免疫显性基团。免疫应答过程中,T细胞的TCR和B细胞的BCR所识别的表位具有不同特点,分别被称为T细胞表位和B细胞表位。   2 基于SVM的线性B细胞表位预测采用贝叶斯特征提取方法[2]   B细胞表位的抗原-抗体之间的相互作用机制,在疾病的预防和诊治中发挥了极大的推动作用。实验方法通常是费力和耗时的,在硅片方法进行预测这些免疫原性的区域是关键的。这样的努力,已经显著以高阻碍可变性的抗原表位序列的长度和组成,使得初治建模方法难以适用。结果:分析了两个标准数据集,发现线性B细胞表位具有鲜明的残基保守性和特定位置的残留物倾向性这可能被利用在硅片表位识别中。开发了一种支持向量机(SVM)预测模型,采用贝叶斯特征提取预测多种不同的长度的线性B细胞表位。最好的SVM分类器实现了准确度为74.50%和AROC为0.84在一个独立的测试集中,并证明优于现有的线性B细胞表位预测算法。   3 UniProt[3]   全球蛋白质资源(Universal Protein Resource,UniProt)这个数据库是全球有关蛋白质方面信息最全面的资源库,是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。   UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用途。   3.1 UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt[7],它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。   3.2 UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJ/EMBI,/GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。   3.3 UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列,只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJ/EMBL/Geni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。   4 机器学习方法简介   4.

文档评论(0)

fa159yd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档