面向合成生物学的机器学习方法及应用.PDFVIP

  • 21
  • 0
  • 约5.56万字
  • 约 16页
  • 2024-04-15 发布于浙江
  • 举报

面向合成生物学的机器学习方法及应用.PDF

2021年第66卷第3期:284~299

定量工程生物学专辑c评述

面向合成生物学的机器学习方法及应用

1†2,3,4†2,52,3,42,3,42,3,42,3,4*2,3,4*1*

胡如云,张嵩亚,蒙海林,余函,张建志,罗小舟,司同,刘陈立,乔宇

1.中国科学院深圳先进技术研究院先进计算与数字工程研究所,深圳518055;

2.中国科学院深圳先进技术研究院合成生物学研究所,深圳518055;

3.深圳合成生物学创新研究院,深圳518055;

4.中国科学院定量工程生物学重点实验室,深圳518055;

5.广州中国科学院先进技术研究所,生物工程研究中心,广州511458

†同等贡献

*联系人,E-mail:tong.si@;cl.liu@;yqiao@

2020-04-24收稿,2020-07-01修回,2020-07-02接受,2020-07-03网络版发表

深圳市科技创新委员会项目(KQTD2015033117210153)资助

摘要机器学习的目标是设计可以根据先验知识和观测数据不断改进其性能的算法.该算法可以帮助机器从大量

的数据中提取知识,从而提升其在特定任务上的性能.作为数据驱动的方法,机器学习可以有效利用高通量实验技

术产生的大批量生物数据,实现合成生物体的功能预测与智能化设计,改变合成生物学的研究范式.本文首先介绍

机器学习在合成生物学领域广泛应用的几个模型及方法,如支持向量机、神经网络、生成式对抗网络、深度强化

学习等.然后介绍机器学习方法在合成生物学领域的典型应用,如启动子预测、酶催化设计、代谢途径构建、基

因线路设计等.本文综述面向合成生物学的机器学习方法及应用,并试图启发读者如何选择和设计机器学习方法

用于合成生物学的研究.

关键词机器学习,合成生物学,生物元件设计,生物网络设计

合成生物学采用工程化设计理念,对生物体进行元件、行为和控制机理,综合解析生物体的代谢与变

有目标的改造乃至从头设计并合成,创建赋予非自然化规律,辅助规划并优化合成生物体的设计方案.

功能的“人造生命”.目前,“设计-构建-测试”的闭环研机器学习是一种数据驱动的模式识别方法,尤其

究策略在合成生物研究中的应用,主要关注“构建”和是深度学习.学习本身基于一定的数学规则和统计假

“测试”的实验试错环节,存在效率低、设计非最优等设.机器学习的总体目标是从给定的数据集中利用特

弊端,因此需要有机结合机器学习手段,配合海量工程征之间的统计关联性学习判别式模型或生成式模型.

化试错来加速和优化生物体设计.机器学习可以充分学得的模型可以预测如类别标签、聚类类别、连续实

利用生物学实验产生的高通量数据,如基因组数据、值等输出,或生成如DNA序列、氨基酸序列、代谢途

蛋白组数据、生物网络数据等,构建从序列(包括DNA径等合成生物对象.对于基因注释问题,机器学习首先

序列、RNA序列和氨基酸序列)到功能元件(蛋白质)的试图识别已标记基因组的关键特征,如转录起始位点

关系,重构或设计高效的生物网络,如调控网络、代谢的构成、基因编码区C+G内容和密码子.然后,利用学

网络等,从而帮助人们从系统角度认识生物体的组成得的特征在训练集上构建基因发现的预测模型.最后,

引用格式:胡如云,张嵩亚,蒙海林,等.面向合成生物学的机器学习方法及应用.科学通报,2021,66:284–299

HuRY,ZhangSY,MengHL,etal.Machinelearningforsyntheticbiology:Methodsandapplications(inChinese).ChinSciBull,2021,66:284–299,

文档评论(0)

1亿VIP精品文档

相关文档