宏基因组DNA片段深度聚类方法研究及应用.pdf

宏基因组DNA片段深度聚类方法研究及应用.pdf

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

宏基因组DNA片段深度聚类方法研究及应用

宏基因组学(Metagenomics)利用第二代测序技术在未经实验室培养的条件

下,可以获取环境中大多数微生物的遗传物质,是目前微生物群落的主流研究手

段。在宏基因组中,环境中所有物种的DNA片段混杂在一起,因此,将这些DNA

片段按照其物种归属进行聚类是重建群落物种结构的必要手段。准确重构宏基因

组物种信息有助于描述生物体的生理规律与现象,识别人体疾病的生物标记物

等。但由于DNA序列因长度短而导致的特征不足的问题,对DNA序列进行聚

类分析是目前的一个研究难点。

现有宏基因组DNA片段聚类方法大多没有充分利用宏基因组中的已知生物

学知识,导致这些方法对复杂宏基因组的聚类效果不好。基于此,本文首次将已

知物种信息用于DNA序列聚类,提出一种基于已知物种序列预训练的宏基因组

DNA片段特征学习模型与深度聚类算法,提高了宏基因组DNA片段的聚类精

度。本文主要工作有:

(1)构建一种基于图卷积神经网络(GCN)的宏基因组DNA片段词嵌入

模型(FocalGCN)。模型包含两个图卷积神经网络,一个用于构建训练集中每

条序列之间以及序列与整个文档之间的联系并进行编码,另一个则对隐藏层输出

结果进行分类。模型结合Focal-Loss损失函数降低数据集物种丰度不均匀对聚类

的影响,适当调整模型参数并进行多次训练,提升模型的分类性能,使误差函数

最小。利用滑窗法将已知标签的序列切割成多个k-mer序列,再将其划分成训练

集与测试集。实验结果表明,FocalGCN模型的分类性能优于传统的词嵌入模型,

提高了宏基因组DNA片段编码的准确率。

(2)构建一种基于深度LSTM自编码网络的宏基因组DNA片段聚类模型

(DCBin)。该模型的编码器与解码器分别由多个LSTM层和全连接层构成。在

有效重构序列信息及训练网络参数的同时,构建基于模糊c均值及KL散度算法

的聚类层,对隐藏层输出结果进行聚类。在模型误差函数中增加类间分离指标,

降低数据集的不平衡性对聚类的影响,同步减小重构误差与聚类误差。通过改变

学习率、网络层数等参数对模型进行多次迭代及训练,提升整体性能。选取部分

已知物种序列测试模型的可靠性,再将未知物种序列的词嵌入向量输入至模型,

I

按照模型聚类结果将原始DNA片段组装为重叠群,计算其完整度与污染度。本

文选取多组数据集进行实验,结果表明,与其他现有方法相比,本文提出的深度

聚类模型可以得到更多低污染度、高完整度的物种组装基因组。

(3)利用上述深度聚类方法建立基于宏基因组的结直肠癌诊断模型。下载

公开数据集并筛选出代表性序列,利用FocalGCN和DCBin模型得到物种信息。

结合已知物种与未知物种,计算每个样本的物种丰度。然后,构建一个基于随机

森林算法的二分类器,对样本进行训练并预测,确认其为患病或是正常。实验结

果表明,诊断模型在所选取数据集上的AUC值为0.945,优于现有方法,表明模

型提升了结直肠癌诊断性能。同时发现在分类过程中共有3个未知物种的特征贡

献度较高,具有潜在的生物标记物价值。

综上,本文结合宏基因组DNA片段特点与深度学习方法,开展了宏基因组

DNA片段深度聚类模型研究,并将其应用于结直肠癌诊断,取得了较好的效果。

关键词:

宏基因组,DNA片段聚类,深度学习,GCN,LSTM自编码网络,预训练,

词嵌入,结直肠癌诊断

II

Abstract

Researchandapplicationofdeepclusteringmethodsfor

metagenomicDNAreads

Metagenomicscanobtainthegeneticmaterialofmostmicroorganismsinthe

environmentwithoutlabora

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档