高校大数据挑战赛优秀论文B230504.pdfVIP

  • 1
  • 0
  • 约1.75万字
  • 约 15页
  • 2026-02-08 发布于甘肃
  • 举报

所在组别参赛编号

2023年第三届中国高校大数据挑战赛

研究生组bdc230504

面向DNA序列的改进层次聚类模型构建

摘要

DNA存储技术被认为是未来具有划时代意义的存储技术之一,正在成为解决数据爆

炸问题的关键技术。然而,由于DNA序列在测序后可能存在错误,因此高效准确地进行

聚类和比对,以实现对DNA序列的精确还原,是DNA存储技术应用过程中的一个关键问

题。为解决这一问题,本文设计了一种面向DNA序列的改进层次聚类模型,旨在实现对

DNA序列的高效准确还原。

针对任务一:在解决错误率统计问题的任务中,我们通过分析DNA测序过程中四种

错误的特征及其在原始序列匹配结果中的规则,设计了一套专门的算法,用以统计碱基

错误的发生次数并计算错误率。对于拷贝数统计问题,本文直接对每一个DNA序列的复

制进行计数的方法来实现。

针对任务二:本文在对常见聚类模型的测试后发现,当前通用聚类算法对解决DNA

序列的聚类问题都存在一定的缺陷。因此本文设计开发了一种面向DNA序列的改进层次

聚类模型。首先,在对DNA序列特征的分析后,通过碱基的索引实现对DNA序列主成分

的选择,从而实现降维;在DNA序列降维的同时中,基于层次聚类的相关理论和DNA序

列的自身特点设计里一套最优簇的确定规则。最终通过“CountVectorizer+余弦相似度”

计算簇间的相似度,完成了簇的合并,将其数量调整到最优数量。模型在测试集上取得

了不错的效果,在适当的调整碱基索引数量后,其聚类准确率可以达到100%,且聚类用

时小于10s,拥有不错的聚类效果。

针对任务三:任务三的主要目的是为了衡量任务二所构建模型的泛化能力和时间复

杂度。通过我们所构建的模型,可以求得最优的聚类簇数为1720,最小的主成分的索引

长度为12。从拷贝数分布和时间复杂度上来看,聚类所需时长在30s左右,拷贝数分布

较为平均,最小簇为34,最大簇为86,未出现极端大或极端小的情况。此外,本文还通

过另外一种方法验证了簇数选取的合理性。这表明,我们所构建的模型的泛化能力和时

间复杂度均处于较高的水平。

针对任务四,要求我们对聚类后的结果通过比对恢复原始信息。本文设计了三种不

同的比对模型,分别为:ClusterSeq方法、ClusterFreq60方法、ClusterEditDist方

法。三者的理论依据分别为:相似性比较,众数统计,编辑距离计算。由于编辑距离计

算与DNA复制过程最为相似,因此其准确率也最高,但由于其采用了动态规划算法,随

着序列长度的增加,计算的时间复杂度也会相应的增加。因此,我们设计将三者结合,

组成一个新的模型来进行原始信息的恢复。在论文中,我们对编辑距离计算的恢复结果

通过热力图进行了展示。对于任何一个簇而言,在原始信息将整个簇复制出来的过程中,

平均每次复制的出错次数不超过1.2次。而且对大部分簇而言,其平均每次复制的错误

次数不超过0.4次。这表明,我们所构建的模型,在泛化能力和时间复杂度的优越性外,

还具有极高的准确率。

关键字:DNA序列聚类,成分分析,层次聚类

1

1引言

1.1研究背景

在当今数字信息大爆炸的时代,随着新互联网设备的大量涌入和对其服务需求的指

数级增长,以及各种科学研究和商业活动的推动,数据的产生与收集呈现出空前的庞大

规模。IDC最新发布的GlobalDataSphere2023显示,中国数据量规模将从2022的

23.88ZB增长至2027年的76.6ZB,年均增长速度CAGR达到26.3%,为全球第一。政府、

媒体、专业服务、零售、医疗、金融为主要分布领域,他们拥有更多的数据,同样也带

来更大的存储治理和分析管理压力,这也为数据管理服务创造更多机会以激活数据来挖

掘商业和社会价值。《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的

意见》等政策持续加码数据服务市场,“数据要素”概念逐渐成形,不同于传统数据和

信息化服务,数据要素强调对

文档评论(0)

1亿VIP精品文档

相关文档