- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
宏基因组中DNA片段物种多样性鉴定研究
摘 要
高通量测序技术的不断更新,推动着宏基因组学的快速发展,使得目前可测
序的宏基因组的数量越来越多,所测 DNA 序列也越来越大。如何有效地分析和
处理这些巨量的宏基因组 DNA 信息,是生物信息学面临的一个挑战。然而,宏
基因组学技术提取的宏基因组是环境样本中多个生物群落的零碎 DNA 片段的总
和,且绝大部分 DNA 序列的种属未知。因此,自从宏基因组学创建以来,给这
些 DNA 片段鉴定其归属就是一个倍受关注的难题。至今仍没有成熟的解决方
案。这大大影响了宏基因组学研究的效率,成为其发展的瓶颈。
本文从生物信息学的角度,研究可用于鉴定宏基因组内 DNA 片段物种多样
性的数据处理系统中存在的几个关键问题,具体研究内容如下:
(1). 从 DNA 片段中提取优化的组成特征向量
由于进化以及基因突变等原因,微生物基因组中往往包含一定比例的外来物
种 DNA 片段,这些片段作为噪声,会影响所提取的数字特征的精度。为此,本
文提出了一种提取 DNA 片段数字特征的新思路,先滤除插入到物种中的外来物
种 DNA 片段,再提取数字特征。实验证明这种过滤后提取的数字特征比过滤前
提取的数字特征能更精确地表现物种间的系统发育关系。
(2 ). 提出双超球 SVDD 推理模型鉴定宏基因组中 DNA 片段的物种多样性
作为训练集的已测序微生物基因组在“种”、“属”甚至“ 目” 的分类学层次上物
种间的类内差异和类间差异没有明显界限。这导致现存的分类方法在这些分类层
次上识别率较低。本文基于支持向量数据描述(SVDD)算法,结合系统进化树,
提出了一种新的双超球 SVDD 推理方案对宏基因组中的基因片段进行种属鉴定。
这种方案可以有效地避免一些误识别、漏识别现象,一定程度上提高了分类精度。
(3 ). 提出稳健支持向量域描述(WSVDD)模型鉴定宏基因组中 DNA 片段的物
种多样性
目前已有的分类方法在“属”的分类层次识别率低、在“种”的分类层次上
还没有方法可以对其进行分类。这主要受以下几个因素影响,如 DNA 序列的长
度,从 DNA 序列中提取的组成向量的可靠度,所选分类器对参考基因组的数字
I
特征向量的描述能力等。据我们观察,现有的分类方法(例如,支持向量机,核
近邻,朴素贝叶斯分类器等)在参考数据包含噪音的情况下,都无法有效地描述
参考数据。然而,众所周知,参考基因组数据(细菌和古细菌的基因组)通常包含
一部分横向转移基因(lateral gene transfer,LGT)片段,它们作为噪声阻碍着分类
器获得更好的精确度。为了解决这个问题,本文通过对 SVDD 算法进行改进,
提出了一种稳健支持向量域描述(WSVDD)算法来鉴定 DNA 片段所属的生物群
落。它能够有效地避免那些异常值(横向基因转移)对训练数据的干扰,从而提高
了分类器的数据描述能力。
我们相信,本方向的研究能够推动宏基因组学及生物多样性、种群进化关
系、功能活性等其相关研究的发展。同时,本研究也为未来工程实践中开发相
关的电子产品奠定良好的理论基础。
关键词:宏基因组学,宏基因组,分类学,支持向量数据描述(SVDD),侧
向基因转移(LGT)
II
Abstract
Advances in the throughput and cost-efficiency of sequencing technology is
fueling a rapid increase in the numb
原创力文档


文档评论(0)