基于网络蛋白质数据库基于网络蛋白质数据库.docVIP

下载本文档

6
0
约3.65千字
约 6页
2016-12-31 发布于贵州
举报
版权申诉

基于网络蛋白质数据库基于网络蛋白质数据库.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网络蛋白质数据库基于网络蛋白质数据库

基于网络的蛋白质RNA结合位点预测数据库童婧姜鹏陆祖宏摘要:蛋白质-RNA的相互作用在许多生物活动起着重要的作用，如作为蛋白质的合成，基因表达调控。。结果表明，我们的RISP方法有72.2%个网预测（敏感性61%，特异性83.3%）。以往的研究相比，这种新的方法乎更准确和更好的泛化的能力。RISP是免费提供给定一个蛋白质序列，RISP决定蛋白质是RNA结合（最优预测），并给出了置信度特异性和灵敏度高的预测。RNA相互作用的蛋白质在细胞内执行基本的和多样化的功能，例如，在基因编码蛋白质的翻译合成可以绑定的tRNA和一些核糖核蛋白颗粒通过结合RNA可以参与基因表达的转录后调控。获取信息蛋白质RNA结合位点，以帮助了解详细的有关各种各样的生物活性和作用机制蛋白质–RNA相互作用。此外，鉴别蛋白质的RNA结合位点药物设计直接提供有用的信息。因此，预测RNA结合蛋白及其结合网站吸引了大量的关注。随着越来越多的已知结构的蛋RNA复合物的X-射线晶体学解决以及基于已知的物理和化学适当的分析结构蛋白RN的关系，我们有更多的潜在资源，他们对于一个给定的蛋白质的结合位点发展和完善一个有效的方法预测RNA结合蛋白。由于预测在补丁或蛋白水平仅仅确定RNA结合蛋白，精确的预测RNA结合残基水平。提出的预测RNA蛋白方法，氨基酸序列的组合物作为输入使用培训的朴素贝叶斯分类器。王先生和布朗还预测在残基水平提供方法，采用侧链的pKa值，疏水性指数和一个氨基酸的分子质量为输入和训练支持向量机（SVM）模型。虽然这些预测RNA结合位点的预测可以提供高的特异性和灵敏度高，它仍然是一个挑战，定位正是在NPRNA结合位点平均值）这是对预测总量一个公平的措施。支持向量机的控制参数对样本分布不均衡的最优参数进行了分析，采用最大精度。结果表明，我们的方法具有较高的精度，RISPNP训练数据集prna-147为72.2%，这更能比RNA增加NP高达7.1%，也通过增加NP高达4.6%比更好。即RISP比以前的方法表现出更好的性能。在独立的数据集，我们的方法也有一个高精度的NP75.3%，这是通过增加NP比RNABindR多达6.8%，也比bindn增加NP多达6.4%。模拟结果表明，我们的RISP方法具有很好的泛化能力，从氨基酸序列的网站可以预测RNA结合。RISP可以在/risp。给定一个蛋白质序列，RISP决定一个RNA结一个或没有（最优预测），与相应的置信度值，高的特异性和灵敏度高的预测预报。我们使用两个数据集（prna-147和prna-71）在低的序列同一性的与现有的样本比较来评估我们的RISP方法有准确的预测能力。因此，更严格的同源性序列是用一个过滤工具来过滤掉高度同源序列在这里，如果侧链和骨落在截止距离a我们定义的氨基酸为结合残基，这在RNA序列中的任何原子从先前的研究是相同的。否则，是一项残留的样品。相比之下，以往研究蛋白链含147个相同的数据集prna-147。这个数据集有代表性的蛋白质–RNA复合物由27个非绑定和4336结合残留PDB数据库，提取蛋白质结构解析或更好。此数据集的同源性序列过滤小于30%。为进一步评价预测新的RISP蛋白质性能我们建立一个独立的测试数据集prna-7由pRNA获得识别数据集—147，这些蛋白质从PDB数据库中由X-射线晶体学提取更好的分辨率比3.5。这些过滤同源性序列蛋白质同时和低于30%的prna-147相互比较。prna-71包含71个蛋白链（共13个668残基的结合；1810残留）。由于支持向量机的理论已被文献解释，在这里只提供一个简洁的描述是从统计学习理论基于结构风险最小化的原则。对于一个给定的二进制类的训练样本集合，支持向量机可以输入空间到高维空间，从负面的例子寻找一个超平面单独的实证数据最大的利润。如果训练的例子不是线性的分离，支持向量机可以找到一个超平面，从而优化良好的分类。在高维数据点之间的测量空间距离是由核函数K计算（X，Y）两个数据载体高维空间映射。许多核函数中使用的大多数支持向量机包，如线性核函内核。具体实现时采用支持向量机的光包版本6.0.1的Joachims。支持向量机的光是一个学习模块（支持向量机的学习和分类模块）。分类模块可用于应用学习新的模型。通过测试，我们发与核分类器可以产生更好的性能。我们构建了一个位置输入每个序列，可通过PSI-BLAST产生该数据库包括非冗余的蛋白质序列。我们使用默认值其他所有方法的争论。一种蛋白质序列长度为N的残，是由一个20×n矩阵表示。此矩阵的每个元素，如m?，提供信息，对渣油型J序列的进化保守性定位信息的整体进化的变异序列位置我是整个i行编码M。在这个矩阵高次元，较不频繁的氨基酸在多序列比对酸的替代因此，更保守的氨基酸的特定位置。在支持向量机的应用，每个