- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于同源性及亲缘性的必需基因预测软件
基于同源性及亲缘性的必需基因预测软件
Geptop改进实现
罗森
Geptop
Geptop(gene essentiality prediction tool based on
orthology and phylogeny) 是由我们课题组的魏闻师兄基
于基因同源性及亲缘性开发的必需基因预测工具。虽
然只用到了同源性与亲缘性这两种特性,但是预测的
准确性非常高,达到国际领先水平。并且在2013 年成
功于PLos One 上发表了文章(Geptop: a gene essentiality
prediction tool for sequenced bacterial genomes based
on orthology and phylogeny) 。
Geptop原理
同源性
直系同源基因的确定采用了双向最优匹配(Reciprocal
best hit ;RBH)方法。如图所示:
对两个特定的基因组,互相用做参考集,然后用blastp
在默认参数下寻找同源基因对。如果有多重匹配,使
用最小E 值的为最优匹配。最终得到两组同源基因对,
我们保留两组的交集为双向最优匹配的同源基因对。
Geptop原理
亲缘性
对于两个不同物种之间的亲缘距离,我们是通过使用
郝柏林院士提出的组成向量(Composition Vector ;CV)
方法来实现的。计算的流程如图所示:
对两个特定的基因组,我们首先算出氨基酸序列(长
度为L)中六肽(Six-peptides)的出现频率,因为常用
氨基酸为20种,我们得到两个620 维度的频率向量
f(a a a a a a ) 。
1 2 3 4 5 6
Geptop原理
当我们得到频率向量后,将此向量除以L-5得到概率
向量p(a a a a a a ) 。用同样的方法计算四肽和五肽的
1 2 3 4 5 6
概率向量,并使用马可夫模型(Markov model)定义
0
随机背景p (a a a a a a ),公式如下:
1 2 3 4 5 6
0 p (a a a a a )p (a a a a a )
p (a a a a a a ) 1 2 3 4 5 2 3 4 5 6
1 2 3 4 5 6
p (a a a a )
2 3 4 5
之后通过以下公式(公式2-2) 获得组成向量a:
p (a a a a a )p (a a a a a ) 0
1 2 3 4 5 2 3 4 5 6 p 0
a(a a a a a a ) p (a a a a )
1 2 3 4 5 6 2 3 4 5
0 p 0 0
Geptop原理
通过之前的公式计算出两个基因组的组成向量a和b ,
然后计算出a和b之间的余弦值C ,公式如下所示:
a b
C
a b
计算出余弦值C
文档评论(0)