小议计算机科学与技术和生物的关系.pdfVIP

  • 4
  • 0
  • 约3.79千字
  • 约 6页
  • 2023-06-23 发布于天津
  • 举报

小议计算机科学与技术和生物的关系.pdf

小议计算机科学 与技术和生物的关系 众所周知,如今的我们正身处一个大数据时代,生活是如此,科 学界亦如此。近年来分子生物学的不断深入研究大大地推动了生命科 学的发展,也造就了生物信息学从无到有,从有到不断发展壮大。生 物信息学是计算机与生命科学结合的一个重要体现。2001年2月, 人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于 DNA 自动测序技术的快速发展,DNA数据库中的核酸序列公共数据 量以每天 106bp 速度增长,生物信息迅速地膨胀成数据的海洋,数 以百计的生物学数据库如雨后春笋般迅速出现和成长。原始的生物信 息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的 ACGT 序列中包涵着什么信息?基因组中的这些信息怎样控制有机 体的发育?基因组本身又是怎样进化的?生物与计算机的高级结合 正体现于此,人类从此进入了以生物信息学为中心的后基因组时代。 毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的 巨大积累往往蕴含着潜在突破性发现的可能,计算机与生物学的完美 结合将是不断探索生命领域的强大工具。生物信息学的主要研究方向 是基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学。具体说 来,计算机与生物的结合大致有以下几个方面。 首先,是大规模基因组测序中的信息分析。大规模测序是基因组研究 的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的 光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补 序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密 依赖基因组信息学的软件和数据库的。 基因组测序技术最早可以追溯到20 世纪50 年代,早在1954 年 就已经出现了关于早期测序技术的报导,即Whitfeld 等用化学降解的 方法测定多聚核糖核苷酸序列。1 9 7 7 年S a n g e 等发明的双脱 氧核苷酸末端终止法和Gilbert 等发明的化学降解法,标志着第一代 测序技术的诞生。此后在三十几年的发展中陆续产生了第二代,第三 代测序技术技术正在向着高通量、低成本、长读取长度的方向发展, 生物与计算机技术的完美配合为两个学术界都带来了巨大贡献。例如 在序列比对问题上,两个序列比对常采用动态规划算法,这种算法在 序列长度较小时适用,然而对于海量基因序列(如人的DNA 序列高 达10 bp),这一方法就不太适用,甚至采用算法复杂性为线性的 也难以奏效。也因此势在必然地引入启发式方法,著名的BALST 和 FASTA算法及相应的改进方法均是从此前提出发的。 高通量测序以其高输出量与高解析度的特性,不仅为我们提供了 丰富的遗传学信息,而且使得测序的费用和时间大大缩短。但是在高 通量测序发展的过程中,也有很多的问题需要我们去解决:数据在临 床诊断上的作用,测序数据的储存和分析,数据的安全和信息隐私等。 可以说,无论是大规模基因组测序的理论分析还是实际操作,计算机 的应用都将是如影随形。 其次,是新基因和新 SNP 的发现与鉴定。早在2015 年,有关 于家族性急性髓系白血病相关新基因的 SNP 基因芯片筛选及其 FAMLF新基因表达分析与真核表达系统的建立的报道,其目的在于 筛选、克隆出家族性急性髓系白血病致病相关基因,在分子水平上探 讨家族性急性髓系白血病发生、发展的机制以及在前期研究的基础上 构建 FAMLF 蛋白真核表达系统,为今后进一步研究其蛋白质的结构 及功能研究奠定基础。毫无疑问,这一研究将有助于为白血病的特异 性诊断与基因治疗提供有价值的科学根据。在这一报道中明确指出了 应用生物信息学分析等技术,结合相应的遗传学统计分析软件进行连 锁分析、单倍型作图、拷贝数分析,定位出致病基因所在染色体区域 这一方法。 据有关资料显示,国际上已出现几个基于EST的基因索引如 UniGene,Merck-Geneindex,GenExpress-index,这些基因索引数据 库(即二次数据库)构建了基因框架,极大地方便了相关研究者。到 目前为止,公共EST数据库 (dbEST)中已经收集到约800万条的人 的EST序列,这些序列已覆盖了人类全部基因的95%以上,平均起 来每个基因有10倍以上的覆盖率。 另外,还有非编码区信息结构分析。众所周知,真核生物的基因 组中只有一小部分为蛋白编码序列,而绝大部分则是不具有编码蛋白 能力的非编码序列。非编

文档评论(0)

1亿VIP精品文档

相关文档