编号农业微生物研究中心2010-08-19共6页承担单位福建农科.doc

编号农业微生物研究中心2010-08-19共6页承担单位福建农科.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
编号生物共页承担单位福建省农科院农业生物资源研究所试验设计试验项目青枯雷尔氏菌基因预测及同源基因比对试验人员唐唯其试验负责报告日期计数月份年月研究资格系数实验设计系数报告得分总分实验设计实验记载实验分析实验简报实验文章设计实施实验记载分析清晰结论清晰文献完整发表水平福建省农业科学院农业生物资源研究所农业微生物研究中心电话传真试验目的试验方法的序列得自测序拼接从上下载所有细菌基因组数据包括格式的蛋白质序列核酸序列全基因组序列格式的基因特征信息格式的基因组序列在本地服务器上构建比对数据库基因预测细菌

编号:生物[2010-08-19], 共页 承担单位:福建省农科院农业生物资源研究所 试验设计: 试验项目:青枯雷尔氏菌RS98基因预测及同源基因比对 试验人员:唐唯其 试验负责: 报告日期:2010-08-19 计数月份:2010年07月 研究资格系数 (0.5-1.0) 实验设计系数 (0.9-1.0) 报告得分 总分 实验设计 实验记载 实验分析 实验简报 实验文章 1-20% 21-40% 41-60% 61-80% 81-100% 1%-5% 设计,实施实验,记载,分析清晰,结论清晰文献完整,发表水平 福建省农业科学院农业生物资源研究所 农业微生物研究中心 电话: 0591 传真: 05911.试验目的试验方法RS98的Contig序列得自Solexa测序拼接。 从NCBI FTP上下载所有细菌基因组数据,包括FASTA格式的蛋白质序列、CDS核酸序列、全基因组序列,GFF格式的基因特征信息,GB格式的基因组序列,在本地服务器上构建BLAST比对数据库。 2.2 基因预测 细菌的基因预测常用的软件有Glimmer3和GeneMarkS,前者是开源的免费软件,而后者是商业软件,对学术用户免费。 本实验同时采用了这两种基因预测工具,互相进行一番验证,但考虑到Contig序列比较零散,相当多的基因在测序及拼接时只得到部分片段,Glimmer3并没有预测基因片段,而GeneMarkS则具有预测基因片段(fragment)的功能,因此,后续的分析以GeneMarkS的预测结果为依据。 因为GeneMarkS的默认输出结果会将批量输入的多条FASTA序列合并为一条,以之产生基因的位置信息,就难以正确定位预测基因在Contig中的位置。因此编写batch_run_gm.pl的Perl程序,批量调用GeneMarkS,并产生类似Glimmer3的基因预测结果的列表文件。在GeneMark预测中选择GC含量为68%,起始密码子包括ATG、GTG、TTG,终止密码子包括TAA、TAG、TGA,即选择heu_11_68.mod模型。 2.3 比对和自动注释 将预测得到的蛋白序列和NCBI上的所有细菌基因组进行BLASTP比对,编写batch_blastp.pl的Perl脚本程序,批量调用BLASTP和所有细菌基因组蛋白质序列进行比对,并产生定义好的输出列表文件,在此列表文件中包含了注释信息。 在比对结果中进一步进行筛选,选择最佳匹配(Score分值最大),并要求匹配片段长度占较短的比对序列的60%以上,相似性在30%以上,以此匹配项进行RS98基因的注释。 2.4 RS98预测结果的自身检查重复 检查RS98预测基因之中是否存在重复基因,通过CDS序列的BLASTN(megablast),设定参数期望值0.001,并使用blastn-lst00.pl的Perl程序处理BLASTN的原始输出结果,产生BLASTN的自身比对的列表文件,再经过blastlst-filter-self.pl的Perl程序去除自身对自身的完全匹配,在此结果的基础上,编写并使用repeat-filter01.pl的Perl程序,来寻找比对结果中显示的重复基因,在此设定筛选标准如下:匹配片段的起始和终止距序列首尾相差在30bp以内(亦即10个氨基酸以内),或者,匹配片段占比对序列(较短的一条)总长的90%以上,并且要求一致性在95%以上,cds序列不可反向互补。试验结果 基因组 平均规模 GC含量 平均值 基因数量 基因密度 均值 基因的平均长度 六种已测序青枯菌 5.68Mb 66.6% 5330个 84.20% 921bp RS98 Glimmer3预测 6.2Mb 68.0% 6017个 66.27% 684bp RS98 GeneMarkS预测 6.2Mb 68.0% 7553个 83.35% 685bp 表. 最佳匹配项所属物种 物种名 最佳匹配 筛选后结果 All 7553 6879 GMI1000 6170 6039 PSI07 326 318 CFBP2957 120 119 Ralstonia pickettii 69 65 Ralstonia eutropha 19 17 Burkholderia 124 106 Others 725 215 图1. 筛选后各最佳匹配的物种比例 从最佳匹配所属物种的分类总计上(见表2)来看,RS98的预测基因多数和GMI1000最相似,共有6170个RS98的预测基因,其最佳匹配为GMI1000的基因,经筛选后还有6039个,可见绝大部分匹配项均可满足筛选条件,而Others即不属于青枯雷尔氏菌RS98亲缘物种的其他细菌,本有725项结果,筛选之后仅有215项

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档