高校大数据挑战赛优秀论文B230520.pdfVIP

下载本文档

0
0
约3.86万字
约 33页
2026-02-10 发布于甘肃
举报

高校大数据挑战赛优秀论文B230520.pdf

所在组别参赛编号

2023年第三届中国高校大数据挑战赛

本科bdc230520

基于DBSCAN与LSTM的DNA序列聚类与预测

摘要

随着互联网的发展，人们每天要产生大量数据信息，越来越多的数据信息被产生与

收集。然而，如何存储与运输如此庞大的数据称为难题。而DNA存储技术的发展为问题

的解决带来了希望。本文基于DNA存储技术发展中存在的问题解决以下任务：

针对任务一：通过对数据集“train_reads.txt”、“train_reference.txt”的分

析可知，断链错误率分布在0.5%左右，删除与插入错误率分布在1.5%，而替换错误率

分布在18%左右，替换错误率表现出明显异常，拷贝数集中分布在120左右，分布平稳。

针对任务二：通过数据处理、k-mer特征提取以及DBSCAN算法构建模型完成对测序

序列聚类的任务，簇的数量与目标序列数量十分相近，仅多了一个噪声簇，而簇内纯度

达到99.9%以上，聚类速度也是达到了77940条/min，可见模型聚类效果较好。

针对任务三：在任务二的基础上调整DBSCAN算法中的eps和min_samples参数，

令eps5.0和min_samples30以得到更好的聚类效果，聚类耗时80.07秒，目标序列

数量1702，拷贝数分布均匀。

针对任务四：通过对“train_reads”“train_reference”匹配拼接作为训练数据，

使用LSTM建立模型对任务三中每一簇中的数据进行预测并通过投票的方式得出每一簇

最有可能正确的目标序列并输出。

关键词：K-mer碱基错误率拷贝数DBSCAN算法LSTMDNA序列合成与测序

一、问题重述

1.1任务背景与任务提出

1.1.1任务背景

近年来，随着新互联网设备的大量涌入和对其服务需求的指数级增长，越来越多的

数据信息被产生与收集。IDC监测2015-2020年全球数据量变化趋势以及2025年预测，

现实是我们正处于数据爆炸的时代，全球数据量呈指数级增长！国际数据机构IDC预测，

2025年，全球数据量将达到175ZB，5年平均复合增长率8%。1ZB等于1万亿GB，如果

[1]

175ZB数据用容量1GB的移动硬盘来装，至少需要175万亿个硬盘。DNA存储具备先天

特大的优势，存储密度是普通存储数据的一百万倍，十的六次方，跟现在存储要提高十

的六次方的存储密度。常规磁盘就5到10年要更换，但DNA有十万年寿命。DNA存储技

术是一项着眼于未来的具有划时代意义存储技术，正成为应对数据爆炸的关键技术之

一。DNA存储技术指的是使用人工合成的脱氧核糖核苷酸（DNA）作为介质进行信息存储

的技术，其具有理论存储量大、维护方便的优点。

1.1.2任务提出

DNA存储将计算机的二进制信息转换为四种碱基（腺嘌呤A、胸腺嘧啶T、鸟嘌呤G

和胞嘧啶C）组成的DNA序列（相当于转换为四进制）然而在存储、读取等阶段会存在

一定的错误，有概率随机发生碱基删除、增添或者替换。针对上述错误往往需要对测序

后的序列进行聚类与比对，通过测序得到的生物序列数据具有与一般数据不同的特点，

主要包括：生物序列数据由非数值型的字符组成；生物序列数据表示所用的符号集合

很小；不同的生物序列间长短差异大，有的序列非常短，只有几十个字符，而有的序列

却很长，甚至几百兆以上；生物序列存在内在“噪声”；生物序列的数据量极大[2]。

如何解读基因组数据是一项极大的难题，之所以对这种基因组数据进行信息挖掘非

常困难，一个是因为这种基因组数据本身数量是相当多的，还有一个更为重要的就是基

因组数据本身的复杂性。因此对于基因组DNA序列的分析问题，要转变解决问题的思路，

把生物学的问题转变成对数字符号进行处理的问题。解决这样的问题不仅需要发展新的

分析理论、方法、技术、工具，而且还必须依靠计算机的信息处理[3]。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

高校大数据挑战赛优秀论文B230520.pdfVIP