化学工程中机器学习的优势、限制、机会和挑战 - 副本.docx

下载文档

0
0
约1.01万字
约 19页
2024-04-25 发布于湖南
举报
版权申诉
保障服务

化学工程中机器学习的优势、限制、机会和挑战 - 副本.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一、引言

在化学工程130年的发展中，数学建模对于工程师理解和设计化学过程而言非常宝贵。OctaveLevenspiel甚至指出建模是化学工程中的主要发展。如今世界快速发展，挑战比以往任何时候都要多。预测某些事件结果的能力是必要的，无论这些事件是否与新疾病活性药物成分的发现或合成有关，或者是否与为满足更严格的环境立法而提高工艺效率有关。这些事件的范围包括从表面反应的反应速率、反应器中反应的选择性到反应器中热量供应的控制。可以使用已经建立了几百年的理论模型进行预测。描述黏性流体行为的Navier-Stokes方程就是这种理论模型的一个例子。然而，这些模型大多数都不能对现实系统进行分析求解，并且需要相当大的计算能力来进行数值求解。这一缺陷使大多数工程师首先选用简单的模型来描述现实情况。历史上，一个重要且对如今而言仍然相关的例子是普朗特边界层模型。在计算化学中，科学家和工程师愿意为了缩短计算时间而放弃一些精度。与更高层次的理论模型相比，这种意愿解释了密度泛函理论的流行。然而，在许多情况下仍然需要更高的精度。

几十年的建模、模拟和实验为化学工程界提供了大量的数据，这些数据作为额外的建模工具包增加了根据经验进行预测的选择。机器学习模型是统计和数学模型，其可以从经验中“学习”，并在数据中发现模式，并且不需要显式的、基于规则的编程。作为一个研究领域，机器学习是人工智能（AI）研究领域下的子领域。人工智能是指机器执行任务的能力，这些任务通常与智能生物（如人类）的行为有关。如图1所示，这并不是一个全新的领域。“人工智能”一词创造于1956年在美国达特茅斯学院为数学家举办的一个夏季研讨会上，该研讨会旨在开发更多具有认知能力的机器。从那时起，经过十数年的努力，人工智能技术才首次应用于化学工程中。在20世纪80年代，更多的关注偏向于规则式专家系统，因为这被认为是人工智能最简单的形式。在那时，机器学习领域的研究已经开始兴起。但在化学工程领域，除去个别例外，机器学习的发展滞后了大约10年。20世纪90年代，随着聚类算法、遗传算法和最为成功的人工神经网络（ANN）的采用，关于人工智能在化学工程中应用的论文著述出版量突然增多。然而，这种趋势并非可持续的。Venkatasubra‐manian认为这种兴趣的丧失可能是由于机器学习缺乏强大的计算能力和创建算法任务的困难性所致。

图1人工智能、机器学习和深度学习的发展时间表。关于人工智能在化学工程领域应用的出版物的发展表明，出版物数量上升之后是一个兴趣淡漠的阶段。目前，化工领域的人工智能研究再次处于“火热”阶段，然而现在尚不清楚曲线是否会很快回落

过去十年中，一个标志性的突破是深度学习的发展，深度学习是机器学习研究领域的子领域，它构建人工神经网络来模仿人类大脑。正如上文所提及的，人工神经网络从20世纪90年代开始在化学工程师中流行起来：然而，深度学习时代的不同之处在于，深度学习为多层神经网络的训练提供了计算手段，即所谓的深度神经网络。这些新发展激发了化学工程师的灵感，这从关于该主题的论文著述出版数量的指数级增长上也可以反映出来。过去，人工智能技术永远不会作为标准工具用于化学工程中；因此，对于当前是否是将之最终纳入标准工具箱的合适时机，是值得讨论的。

本文将首先概述当今机器学习应用于化学工程的三个主要环节。本文接下来将批判性地讨论机器学习在化学工程中不断增长的潜力；文中将调查其利弊，并列出可能的原因来讨论为什么机器学习在化学工程中仍是“热门”的话题或为什么它最终会“不再热门”。

二、机器学习基础ABC

（一）机器学习ABC中的“A”——数据

如图2所示，机器学习方法由三个重要环节组成：数据、表示和模型。机器学习方法的第一个环节是用来训练模型的数据。正如后面将要讨论的，所使用的数据也被证实是机器学习过程中最薄弱的环节。实际上，任何包含实验、第一性原理计算或复杂仿真模型结果的数据集都可以用来训练模型。然而，由于收集大量准确数据的成本很高，习惯上使用“大数据”的方法，即使用来自各种现有来源的大型数据库。由于真实实验的成本高昂，这些大量的数据通常是通过快速模拟或从专利和已发表的作品中进行文本挖掘获得的。数字化研究的增加为科学界提供了大量的公开资源和商业数据库。

常用的化学信息来源有Reaxys、SciFinder，用于反应化学和性质研究的ChemSpace，用于小的药物分子的GDB-17，以及美国国家标准与技术研究所（NIST）和对溶解度等分子性质进行研究的国际纯粹与应用化学联合会（IUPAC）。此外，还创建了几个基准数据集，以便在不同的机器学习模型之间进行比较。这些基准测试集的例子有用于量子化学性质的QM9和Alchemy，以及用于溶解度的ESOL和FreeSolv。在使用任何数据集进行基于机器学习的建模之前，应该采取几