基于同源性及亲缘性的必需基因预测软件.PDFVIP

基于同源性及亲缘性的必需基因预测软件.PDF

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于同源性及亲缘性的必需基因预测软件

基于同源性及亲缘性的必需基因预测软件 Geptop改进实现 罗森 Geptop  Geptop(gene essentiality prediction tool based on orthology and phylogeny) 是由我们课题组的魏闻师兄基 于基因同源性及亲缘性开发的必需基因预测工具。虽 然只用到了同源性与亲缘性这两种特性,但是预测的 准确性非常高,达到国际领先水平。并且在2013 年成 功于PLos One 上发表了文章(Geptop: a gene essentiality prediction tool for sequenced bacterial genomes based on orthology and phylogeny) 。 Geptop原理  同源性 直系同源基因的确定采用了双向最优匹配(Reciprocal best hit ;RBH)方法。如图所示: 对两个特定的基因组,互相用做参考集,然后用blastp 在默认参数下寻找同源基因对。如果有多重匹配,使 用最小E 值的为最优匹配。最终得到两组同源基因对, 我们保留两组的交集为双向最优匹配的同源基因对。 Geptop原理  亲缘性 对于两个不同物种之间的亲缘距离,我们是通过使用 郝柏林院士提出的组成向量(Composition Vector ;CV) 方法来实现的。计算的流程如图所示: 对两个特定的基因组,我们首先算出氨基酸序列(长 度为L)中六肽(Six-peptides)的出现频率,因为常用 氨基酸为20种,我们得到两个620 维度的频率向量 f(a a a a a a ) 。 1 2 3 4 5 6 Geptop原理 当我们得到频率向量后,将此向量除以L-5得到概率 向量p(a a a a a a ) 。用同样的方法计算四肽和五肽的 1 2 3 4 5 6 概率向量,并使用马可夫模型(Markov model)定义 0 随机背景p (a a a a a a ),公式如下: 1 2 3 4 5 6 0 p (a a a a a )p (a a a a a ) p (a a a a a a ) 1 2 3 4 5 2 3 4 5 6 1 2 3 4 5 6 p (a a a a ) 2 3 4 5 之后通过以下公式(公式2-2) 获得组成向量a: p (a a a a a )p (a a a a a ) 0  1 2 3 4 5 2 3 4 5 6 p  0 a(a a a a a a )  p (a a a a ) 1 2 3 4 5 6 2 3 4 5  0 p 0 0  Geptop原理 通过之前的公式计算出两个基因组的组成向量a和b , 然后计算出a和b之间的余弦值C ,公式如下所示: a b C a  b 计算出余弦值C

文档评论(0)

ldj215323 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档