- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大似然法构建分子进化树-PhyML
PhyML利用氨基酸序列建树步骤(核酸建树也可以作为参考)吴碧波前言:本文阅读对象适合建树新手,生物信息学高手请勿嘲笑,其中有什么错误还恳请指点。为什么要建树及其你要解决什么问题这里不做讨论,只是一个纯粹的建树过程,前期的序列收集过程自己费心,根据自己的需要来做。这里主要是最大似然法来建树,NJ法像mega这些软件中都有集成,最新的mega7也集成ML法,不过模型及各种参数不一定适合你,所以学习多种多种方法也是有用的,PhyML速度较慢,如果数列数量较多、步长检验次数多,等待时间会很长,有可能达到几十小时,也与电脑配置有关,一般时间都是以小时计数,所以要有心理准备,如果数据量大,推荐用RaxML或其他方法建树,它处理速度要比PhyML快,不过RaxML是命令操作,对不熟悉命令及参数设置的人有一定难度,我也只在linux下操作过,没有在win环境中使用过。本文是用氨基酸建树过程,如果你是用核酸序列建树,也可以参考这个过程,核酸替代模型请用jmodeltest或其他同功软件计算。由于PhyML计算过程比较长,做一遍很耗时,推荐你用其他软件用NJ法先行试验建树,看看你选择的序列是否有效及符合你的预期结果,调整好序列后再用PhyML跑一遍看结果是否符合自己的要求。PhyML有线上版本,http://www.atgc-montpellier.fr/phyml/,只需要提交序列比对结果,设置模型参数,留下邮箱等待就会给你返回结果,不过时间不可控,根据试剂情况选择线上还是本地自己建树。水平有限,如有错误遗漏恳请各位指点,文末有微信联系方式,欢迎骚扰^-^。环境准备:电脑^-^Windows或者Linux都可以(没试过mac,你自己看办吧)、java环境、ProtTest、PhyMl及序列比对的软件,线上或本地都可以的。序列准备:在自己熟悉的数据库中(我自己比较熟悉Ncbi)上做blast,选取跟要建树蛋白同源的各物种序列,下载到本地,整合到一个fasta文件中,注意修改物种名称,字数最好不要太长,序列比对后.phy格式文件对文件名长度有限制(这个可能跟软件有关系,只要自己知道是什么物种,不至于混淆就行),注意规范性,fasta文件中最好除了头标,字母及下划线不要有其他不相关的字符,因为如果后面你要用软件分析.phy文件的时候这些软件对.phy的格式要求比较变态,有其他多于字符它都会报错的(你如果在dos下用命令合并文件请注意文件的最后一行的字符,请删除)。做序列分析,常用的分析软件有clustalW系列,mega也集成了集中蛋白比对工具,线上线下各种软件自由选择,区别不大,保存的格式可以选择多一点,主要是看你后续操作。如clustalx 比对可以保存的结果格式如图1所示。选中你希望的格式保存即可。图1.clustalx2输出文件设置注:有的软件运行打开你需要比对的FASTA格式文件时候是不能有中文路径的,比如clustalx这货就打不开有保存在中文路径下的文件。用ProtTest选择建树中所需要的模型Windows下点击runXProtTestHPC.bat运行prottest软件(注意这货执行文件不能放到有中文字符路径中,Linux平台下你知道如何运行的^-^),打开你你要建树的phy格式文件,如果文件没有问题,打开界面如图2,如果打开文件中有其他非规范性字符就会报错。图2.ProtTest打开文件界面点analysis----compute likelihood scores (图3)出现图4设置界面,替代模型默认全部选择,可以不用管,直接默认及好,rate variation 全选默认不变,categories默认是4,这个范围可以设置4-8,数值应该是越大越好,但会增加计算时间,根据你的情况选择,如果不明白就保持默认4。Amino-acid frequencies 勾选Empirical,如果不选这个,计算模型变为60个,会减少计算时间,推荐勾选,最后一个Starting topolpgy 选型改为Maximum Likelihood tree,最后点击Compute计算,长时间等待……..(看你用的机器配置情况咯,没办法)图3.ProTest analysis选项图4.analysis设置界面经过长时间等待后计算完成,返回结果,如图5。第一行deltaAIC值为0的即使所需要的建树模型。在结果中翻出如下数据,记下标红这两个参数,在后面用PhyML建树中会用到这两个模型参数。到这里,模型选择算是完成了。Model................................ : LG+I+G+F Number of parameters............... : 50 (21 + 29 branch length est
您可能关注的文档
最近下载
- 售后服务体系、流程及售后保障措施.docx VIP
- 北师版初中心理健康七年级全一册第一课翻开新的一页开启新学期课.pptx VIP
- 注塑生产排程月计划(ASDJS)自动排程.xls VIP
- QCT484-1999 汽车油漆涂层.pdf VIP
- 《影视后期合成》教案全套项目1--11 初识After Effects--渲染输出.docx VIP
- SAP物料分类账操作详解(S4系统).doc VIP
- 人教版小学数学四年级上册第六单元《用五入法试商的除法》PPT课件.pptx VIP
- 云南硅pu篮球场施工方案.docx VIP
- 学生牛奶糕点配送项目供货保障措施方案.docx VIP
- 课件中国现代文学史下.pptx VIP
文档评论(0)