人工智能在作物基因组学和遗传改良中的应用.docxVIP

下载本文档

3
0
约3.23千字
约 4页
2021-09-16 发布于湖北
举报
版权申诉

人工智能在作物基因组学和遗传改良中的应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能在作物基因组学和遗传改良中的应用摘要：随着世界人口的不断增长、食物需求量的不断增加，以及气候的不断变化，如何提高农作物产量已成为人类面临的一个巨大挑战。传统设计育种耗时长、效率低，已经不能满足新时代的育种需求。随着基因型和表型数据成本的不断降低，以及各种组学数据的爆炸式增长，人工智能技术作为能够在大数据中高效率挖掘信息的工具，在生物学领域受到了广泛关注。人工智能指导的设计育种将大大加快育种的效率，给育种带来革命性的变化。介绍了人工智能特别是深度学习在作物基因组学和遗传改良中的应用，并进行了总结与展望，以期为智能设计育种提供新的思路。随着全球人口数量不断增加，到2050年，全球对粮食的需求预计将比2005年增加100%～110%1 人工智能及分支人工智能这一概念最早在20世纪40年代被提出，但是受计算能力的限制，人工智能领域一直处于发展的低谷。进入21世纪后，计算机性能的大幅提升（尤其是GPU的发展）使得人工智能领域重新回到人们的视野。目前，人工智能已被应用于多个领域。1.1 机器学习人工智能领域最主要的研究方法是机器学习，机器学习按学习形式可以分为监督学习和无监督学习两种。监督学习是指在训练实例中学习输入变量数据和其因变量（或叫标签）之间的关系，然后以此在新实例中预测结果，主要应用于回归和分类问题。例如，可以用大量历史气象数据训练机器学习模型，该模型可以以过去的天气数据为预测因子，预测未来的天气。如果预测的目标变量为离散变量，则该机器学习任务称为分类问题（classification）；如果预测的目标变量为连续变量，则该机器学习任务称为回归问题（regression）。在机器学习中有很多监督学习算法及应用，例如结合统计学的隐马尔可夫模型（hidden Markov model,HMM）和机器学习的支持向量机（support vector machine,SVM）可以快速准确预测和区分DNA和RNA结合残基的方法，这有利于进一步预测蛋白质-DNA和蛋白质-RNA相互作用的序列1.2 深度学习深度学习是机器学习领域的一个相对年轻的分支，已经成为机器学习领域最流行和最强大的技术之一卷积神经网络（convolutional neural network,CNN）是深度神经网络的一种，也是基础的深度学习模型，用卷积这一数学计算方式提取数据中的特征信息，再经深度神经网络处理，可以大大增加神经网络的性能。卷积神经网络更擅长提取结构信息。目前已经有很多利用CNN解决基因组学问题的例子。例如，Babak等自编码器（auto-encoder）是深度学习中的无监督学习的重要组成部分。自编码器分为编码和解码两部分。编码部分负责将输入数据低维化处理，也可以理解为特征提取；解码部分负责将编码得到的结果恢复到原始输入的形式，它是理解复杂深度学习模型的关键，可以把数据中的关键数据提炼并展现出来，解决了深度学习模型训练过程的不可见问题。目前自编码器在图像识别、降噪、色彩化方面有广泛应用。Zhang等生成模型技术作为深度学习领域的重要分支，它既不属于监督学习也不属于无监督学习。主要包括生成式对抗网络（generative adversarial network,GAN）和变分自动编码器（encoder）两种模型。生成式对抗网络变分自动编码器2 深度学习在作物基因组学中的应用目前人工智能在农业上应用的报道主要是对图像和视频进行识别，如对玉米照片进行识别和对玉米干旱胁迫下的表型进行分类2.1 深度学习模型建立的过程深度学习模型建立首先遇到的一个问题就是生物学数据该以何种形式输入到人工智能模型中，这个问题在基因组和转录组已经有了统一的答案。One-hot编码方式可以高效地将基因组和转录组数据储存在电脑中作为输入数据。将基因的A、T、G、C 4种碱基储存在一个4×N的矩阵中，每一列只储存1个碱基（图2），这个方法可以将N bp的基因数据输入模型。当建立机器学习模型时,观测数据通常被随机分为训练集（用于训练模型）、验证集（用于确定模型结构和超参数），以及测试集（用于评估模型的性能）。这种随机划分能够避免数据间存在规律性特征而得出准确率虚高的模型。训练集/测试集的划分应尽量保持数据分布的一致性，避免混杂因素（confounder）对最终结果的影响。最常用的训练集/测试集分割方法为交叉验证法。在训练集上的准确度高于在测试集上的准确度，这种现象被称为过拟合（over-fitting）。有几种情况会导致过拟合。一个通常出现的问题是特征空间中的维度有时大大超过观测值。例如，当从基因组变体预测一个表型时，检测到的基因组单核苷酸SNP数目几乎总是超过植物基因型的数目。在这种情况下，可以使用主成分分析(pr