- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络的蛋白质RNA结合位点预测数据库
童婧 姜鹏 陆祖宏
摘要:蛋白质-RNA的相互作用在许多生物活动中起着重要的作用,如作为蛋白质的合成,基因表达调控。本文利用训练好的SVM模型对PDB数据库中所有人类相关蛋白质氨基酸序列进行训练,预测出其中蛋白质RNA结合位点信息,加上蛋白质注释信息,构建了蛋白质RNA结合位点预测数据库。结果表明,我们的RISP方法有72.2%个网预测(敏感性61%,特异性83.3%)。与以往的研究相比,这种新的方法似乎更准确和更好的泛化的能力。RISP是免费提供的http:// /risp给定一个蛋白质序列,RISP决定蛋白质残基是否与RNA结合(最优预测),并给出了置信度,特异性高和灵敏度高的预测。
关键词:蛋白质RNA结合位点 PSSM矩阵 支持向量机 数据库
1.引言
RNA相互作用的蛋白质在细胞内执行基本的和多样化的功能,例如,在基因编码蛋白质的翻译合成可以绑定到特定的的tRNA和一些核糖核蛋白颗粒通过结合RNA可以参与基因表达的转录后调控。获取信息蛋白质RNA的结合位点,以帮助了解详细的有关各种各样的生物活性和作用机制蛋白质–RNA相互作用。此外,鉴别蛋白质的RNA结合位点的药物设计直接提供有用的信息。因此,预测RNA结合蛋白及其结合网站吸引了大量的关注。
随着越来越多的已知结构的蛋白RNA复合物的X-射线晶体学解决以及基于已知的物理和化学适当的分析结构蛋白RNA相互作用的关系,我们有更多的潜在资源,他们对于一个给定的蛋白质的结合位点来发展和完善一个有效的方法预测RNA结合蛋白。
由于预测在补丁或蛋白水平仅仅确定RNA结合蛋白,精确的预测RNA结合残基水平。科学家提出的预测RNA蛋白质结合位点的方法,氨基酸序列的组合物作为输入使用培训的朴素贝叶斯分类器。王先生和布朗还为预测在残基水平提供了方法,采用侧链的pKa值,疏水性指数和一个氨基酸的分子质量为输入和训练支持向量机(SVM)模型。虽然这些预测RNA结合位点的预测可以提供高的特异性和灵敏度高,它仍然是一个挑战,定位正是在NPRNA结合位点(敏感性和特异性的平均值)这是对预测总量的一个公平的措施。本文利用训练好的SVM模型对PDB数据库中所有人类相关蛋白质氨基酸序列进行训练,预测出其中蛋白质RNA结合位点信息,加上蛋白质注释信息,构建了蛋白质RNA结合位点预测数据库。支持向量机的控制参数对样本分布不均衡的最优参数进行了分析,采用最大精度。结果表明,我们的方法具有较高的精度,RISPNP训练数据集prna-147为72.2%,这更能比RNA增加NP高达7.1%,也通过增加NP高达4.6%,比原来的更好。即RISP比以前的方法表现出更好的性能。在独立的数据集,我们的方法也有一个高精度的NP75.3%,这是通过增加NP比RNABindR多达6.8%,也比bindn增加NP多达6.4%。模拟结果表明,我们的RISP方法具有很好的泛化能力,从氨基酸序列的网站可以预测RNA结合蛋白质有良好的表现。RISP可以在/risp。给定一个蛋白质序列,RISP决定一个RNA结合蛋白质残基一个或没有(最优预测),与相应的置信度值,高的特异性和灵敏度高的预测预报。
2.材料和方法
2.1数据库
我们使用两个数据集(prna-147和prna-71)在低的序列同一性的新蛋白与现有的样本比较来评估我们的RISP方法有准确的预测能力。因此,更严格的同源性序列是用一个过滤工具来过滤掉高度同源序列。
在这里,如果侧链和骨干原子落在截止距离a,我们定义的氨基酸为结合残基,这在RNA序列中的任何原子从先前的研究是相同的。否则,是一项残留的样品。
相比之下,与以往研究的蛋白链含147个相同的数据集prna-147。这个数据集有代表性的蛋白质–RNA复合物由27个非绑定和4336结合残留在PDB数据库中,提取蛋白质结构解析或更好。此数据集的同源性序列过滤小于30%。
为进一步评价预测新的RISP蛋白质性能,在这项研究中,我们建立了一个独立的测试数据集prna-71。由pRNA获得识别数据集—147,这些蛋白质从PDB数据库中由X-射线晶体学提取有更好的分辨率比3.5%。这些过滤同源性序列蛋白质的同时和低于30%的prna-147相互比较。prna-71包含71个蛋白链(共13个668残基的结合;1810残留)。
2.2方法
由于支持向量机的理论已被大量文献解释,在这里只提供一个简洁的描述。支持向量机是从统计学习理论基于结构风险最小化的原则。对于一个给定的二进制类的训练样本集合,支持向量机可以平面输入空间到高维空间,从负面的例子寻找一个超平面单独的实证数据获得最大的利润。如果训练的例子不是线性的分离,支持向量机可以找到一个超
原创力文档


文档评论(0)