- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
环境微生物基因物种结构无监督分析算法的研究
摘要
环境微生物基因组学(EnvironmentalGenomics,又被称为元基因组学,宏观基因组学,
混合体为测序模板,对其进行高通量测序。‘这一方法不但免去了传统检测手段中分离培养纯
化的步骤,更重要的是可以获取过去无法取得的未知细菌的基因组信息。与此同时,由于省
略了繁冗的分离培养的步骤,环境微生物基因组测序项目通常的花费的只有传统方法的数十
分之一,甚至数百分之一。
和传统的单一纯品样本测序不同,环境微生物基因组测序后的数据中包含的DNA片段
来自于数百种,甚至上千种不同的细菌。并且,这上千种细菌中,只有很少一部分是已知的,
绝大部分的DNA片段来源于未知细菌。近几年来研究人员提出了两大类研究环境微生物基因
组数据中物种结构的方法,一种是基于序列相似性比对的方法,另一种是基于序列结构特征
的方法。然而这两种方法在被广泛应用的同时也遇到了其技术瓶颈,其最主要的缺陷在于,
这些方法很大程度上依赖于现有的微生物基因组参考数据库。而对于以序列结构特征为基础
机器学习(machine
法很自然的会倾向于将输入DNA片段归入到已知微生物种群中,从而产生较大的偏向性。
method)分类的新型封装思路。在此基础上,通过对序
feature)并结合无监督(unsupervised
列结构特征相似性的研究,设计了数种独特的距离定义及相应的系列封装算法:MetaCluster。
混合基因组测序项目所产生的数据集。从而将属于同一个物种基因组的序列以及属于相似物
种基因组的序列从原始的混合数据中鉴别出来,形成一系列的群(groups),每一个群中的序
列来自于同一个物种或者来自于物种分类树上同一个分支下的数个物种。最后再以独立
FASTA格式数据文件的形式输出每一个群所含的序列。
我们首次应用,子串频度来描述一条DNA序列的结构特征,在此基础上选取核心,子串,
用改良的切比雪夫距离定义两个,子串频度的距离,以此来描述两条DNA序列的相似性。结
测序错误的鲁棒性上都取得了较好的结果。就我们所知,MetaCluster1.0是第一个完全不需
要任何先验知识的非监督封装工具,填补了宏观基因组研究的方法学空白。
为了进一步提高封装的效果,更加重要的是对DNA序列之间,子串频度的相似性给出更
加科学的解释和定义。我们引入了一种在数学和计算机科学领域被广泛应用的顺序表相关性
Footrule距离。MetaCluster
因子的距离定义:Spearman 2.0在进一步提高封装精度的前提下,
在MetaCluster
3.0版本中,我们采用了“先自上而下分解,再由下而上融合的封装策
略,从而解决了所有非监督算法都面临的物种间相对丰度差异较大的数据集的封装问题。实
验结果表明,针对不同物种丰度比例的数据集,从最简单的l:l到最复杂情况的l:24,
MetaCluster Footrule
3.0都能保持很高的分类和封装精度。此外我们利用种内和种间Spearman
距离的分布特性,建立概率模型预测封装数据集中物种的数量,和传统的非监督封装算法相
的大概数量。从而真正意义上实现了完全非监督的封装。
考虑到生物学家在研究工作所遇到的实际需求,在2.0及以后的版本中,我们亦提供针
对封装结果进行物种分类注释的功能。可以在没有相关物种参考序列,甚至没有相似物种参
考序列的情况为每一个封装簇标记上其可能物种分类信息。从而为生物学家在探索完全未知
微生物的工作中,提供了宝贵的第一手资料。
本课题组正在从事国产高通量测序解决方案的开发,因此我们在常用生物信息学算法的
基础上开发了基于“Browser-Server结构的商业化软件AG
Analyst,并与东南大学
Sequence
生物电子学国家重点实验室研发的AG系列高通量快速DNA测序系统无缝集成。AG
您可能关注的文档
最近下载
- 高电压技术赵智大第三版.pptx VIP
- 长江经济带发展战略(第1课时)示范公开课教学课件【高中地理必修第二册鲁教版(新课标)】.pptx VIP
- 2024上海全民国防教育知识线上答题活动题库及答案 .pdf VIP
- 管理会计学复习笔记.pdf VIP
- 11ZJ111 变形缝建筑构造(OCR).pdf VIP
- 粮油供货合同.docx VIP
- 网络安全协议分析与案例实践.ppt
- 1.《沁园春长沙 》课件(共49张PPT) 2024-2025学年统编版高中语文必修上册.pptx VIP
- 《口腔颌面外科学》课件——第三章 局麻并发症.pptx VIP
- 2025年入党积极分子培训班结业考试试题及答案.docx VIP
文档评论(0)