- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
看最新文献如何打造高完
看最新文献如何打造“高完”基因组
参考基因组是一个物种系统研究的起点,自2003年人类基因组计划完成之后,测序技术迅猛发展,测序读长不断加长、通量不断提升、时间不断缩短、成本不断下降,越来越多的物种基因组序列被破译,高重复、高杂合、超大基因组组装也都不再困难,相信在不久的将来,每个物种都会有自己的参考基因组。
图1 部分具有参考基因组的物种
随着测序读长的提升(以Pacbio和Nanopore为主),算法变得越来越简单,三代测序数据可直接通过overlap进行拼接,无需构建复杂的De Bruijn图,即可获得质量更高的基因组图谱。
上个月,中科院梁承志研究组开发了显著提升Contig N50的组装方法HERA[1],并在水稻、玉米、人和苦荞基因组中进行了测试,与已发表版本进行对比,玉米的Contig N50从1.3 Mb提升至61.2 Mb,人的Contig N50从8.3 MB提升至54.4 MB,水稻的Contig N50从1.3 Mb提升至14.4 Mb,苦荞基因组Contig N50达到了27.85 Mb。HELA作为一种新的基因组组装方法,不仅可以提升Contig指标,还能填补混合组装基因组图谱或Scaffold中的gap,填补和纠正遗传图谱或Hi-C数据组装的染色体中的gap和错误。
图2 水稻、玉米、人和苦荞基因组组装结果对比
近日,农科院阮珏研究组开发了提升三代测序Contig N50的组装方法LRScaf[2],不仅可以组装高连续性的Contig,还能缩短运行时间,已利用Pacbio和ONT数据在大肠杆菌、酿酒酵母、果蝇、水稻和智人基因组中进行了测试。
5个物种Pacbio测序深度及平均读长分别为:大肠杆菌(20.1X,8.7 Kb)、酿酒酵母(20.7X,4.6 Kb)、果蝇(18.9X,19.6 Kb)、水稻(11.7X,3.4 Kb)和智人(20.0X,1.6 Kb),进一步利用不同方法进行组装。通过 SSPACE-LongRead、SMIS、Unicycler和LRScaf将大肠杆菌基因组组装成一条完整的序列,而LINKS、OPERA-LG、npScarf和DBG2OLC则未能实现;果蝇中,SSPACE-LongRead组装出的NG50最长(6.6 Mb),而LRScaf(BLASR)组装出的NA50最长(5.2 Mb);智人中,LRScaf(minimap2)组装出的NG50(10.4 Mb)和NA50(10.7 Mb)均最长。
图3 不同软件对5个物种Pacbio数据组装结果比较
3个物种ONT测序深度及平均读长分别为:大肠杆菌FULL(4.7X,5.7 Kb)、大肠杆菌ALL(34.0X,6.1 Kb)、大肠杆菌RAW(66.5X,3.6 Kb)、酿酒酵母-NANOCORR(43.6X,5.5 Kb)、酿酒酵母-RAW( 198.2X,5.1 Kb)和智人(35.0X,4.6 Kb),进一步利用不同方法进行组装。大肠杆菌FULL中,LRScaf(BLASR)组装出的NG50(921.6 Kb)和NA50(485.2 Kb)均最长;智人中,LRScaf(minimap2)组装出的NG50(17.4 Mb)和NA50(13.6 Mb)也都最长。
图4 不同软件对3个物种ONT数据组装结果比较
软件运行时间对于生信分析来说至关重要,LRScaf是利用长读长数据进行分析耗时最短的软件,随着基因组的增大,这种优势变得更加明显。除此之外,减少组装错误也尤为重要,SMRT数据中,LRScaf组装的大肠杆菌、果蝇和水稻基因组错误最少;ONT数据中,LRScaf组装的大肠杆菌、酿酒酵母和智人基因组错误最少。由此可见,LRScaf是一款实用的软件,在缩短耗时的同时而不增加组装错误。
组装完成的基因组草图还需要进一步注释,包括重复序列预测、编码基因预测、假基因预测、非编码RNA注释和基因功能注释。近日,诺里奇科研公园Swarbreck David研究组开发了辅助基因组注释的Mikado[3]。Mikado是用python3和Cython编写的,由三个核心部分组成(prepare,serialise,pick),默认整合三种类型的数据:通过TransDecoder识别开放阅读框ORF,通过BLASTX或 Diamond得到蛋白相似度,通过Portcullis或者Stampy识别剪切融合事件。研究者将Mikado在秀丽隐杆线虫、果蝇、智人和拟南芥中进行验证,在模拟数据和真实数据中,精确度都得以提升(相比于平均水平)。总体来说,Mikado利用数据的内在互补性,对转录组件进行整合,产生高质量的转录本,辅助基因组注释。
图5 Mikado采用的算法
如今,基因组组装、注释都已不是难事,年初,德国马克斯普朗克分子细胞
您可能关注的文档
最近下载
- 质子治疗与护理.pptx
- 李清照《声声慢》完整教学课件.ppt VIP
- DL-T5210-2021电力建设施工质量验收及评价规程最新表格.docx
- 在线网课学习课堂《雷达原理》单元测试考核答案.docx VIP
- 《工程勘察设计收费标准》2002年修订本完整.pdf VIP
- 服装行业智能化产业生态构建策略研究:2025年现状与未来五到十年展望.docx
- SCIP准备和提交教程.pdf VIP
- 在线网课学习课堂《雷达原理与系统(中国人民解放军战略支援部队信息工程)》单元测试考核答案.docx VIP
- 城市轨道交通调度指挥:列车运行计划及列车运行图PPT教学课件.pptx
- 社会影响力投资手册.pdf
原创力文档


文档评论(0)