0 AutoMLAutoML 是否被过度炒作?.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【AutoML】AutoML 能否被过度炒作? AI开发者 2020-11-10 原文 原标题 |?AutoML is Overhyped 作 者 |?Denis Vorotyntsev 翻 译 |?呀啦呼(Tufts University | CS) 图源:汤姆和杰瑞,第70集?——?按键猫(1952)(译者注:直到暑假去了上海Disney,我才晓得它和兔八哥、啄木鸟伍迪都和迪士尼木有关系,气气?) 我在多个机器学习竞赛中为了融合次要的模型使用了AutoML,并且我参与了两个AutoML的竞赛。我认为AutoML作为使建模过程自动化的一种想法格外精彩,但是该领域被过度炒作(overhyped)。一些关键概念,例如特征工程(features engineering)或用于参数优化的元学习(meta-learning),将释放其潜力,但就目前而言,将封装的AutoML作为工具只是铺张金钱。 以下全部文本均与表格数据有关。 ?1??AutoML是嘛玩意? ??Data Science projects(数据科学项目) 任何数据科学项目都包含几个基本步骤:从业务角度提出问题(选择成功的任务和度量标准),收集数据(收集,清理,探究),建立模型和评估其功能,在生产环境中部署模型并观看模型在生产中的表现。 跨行业的数据挖掘标准流程 过程的每个部分对于项目的成功都至关重要。但是,从机器学习的最擅长角度来看,建模部分至关重要,由于完善的ML模型可能会为公司带来很多价值。 在建模阶段,数据科学家正在处理优化任务:使用给定的数据集,目标-最大化所选目标。这个过程很简单,它需要不同类型的技能: 1. 特征工程有时被视为艺术,而非科学(译者:我猜作者表达的是很多时候我们需要直觉或者阅历总结,但是我不同意归为艺术); 2. 参数优化需要对算法和核心ML概念有深化的了解; 3. 需要软件工程技能(码畜们存在的意义)来让输出的代码易于理解、部署。 这就是为啥我们需要AutoML。 ML建模和软件工程一样,像是艺术和科学的结合体。 ??AutoML AutoML的输入是数据和任务(classification, regression, recommendations等),输出-生产就绪模型,该模型能够猜测隐蔽的数据。数据驱动管道中的每个打算都是一个参数(译者:闹不懂作者的意思,有点玄学)。AutoML的基本想法是找到这样的参数,这些参数可以在合理的时间内给出良好的分数。 AutoML选择了一种预处理数据的策略:如何处理不平衡的数据;如何处理不平衡的数据;如何填充缺失值;outlier的删除,替换或保留;如何编码类别和多类别列;如何避开目标泄漏;如何防止内存错误;等等。 AutoML生成很多新的特征并且选择当中有意义的; AutoML自动选择适合的模型(Linear models, K-Nearest Neighbors, Gradient Boosting, Neural Nets, 等等); AutoML为选择的模型进行参数优化(比如tree-based的模型有多少子树数量和子采样数, 神经网络的learning rate和epochs数量; AutoML建立了一个模型集成(译者:大杂烩,嘛都有)来尽可能的让模型分数更高。 ?2??AutoML 的动机 ??AutoML将填补数据科学市场中供需之间的缺口 如今,越来越多的公司要么开头收集数据,要么想变现已收集数据的潜力:他们期望从中获得价值(译者:作者该当表达的是商业价值)。可是没有太多具有适当背景的数据科学家可以满足需求,因此巨大的缺口消灭了。AutoML有可能会填补上。 但是这样的封装处理方案能给公司带来任何价值吗?我认为答案是“否”。 这些公司需要一个过程,但是AutoML只是一个工具。先进的工具无法弥补战略上的不足。在开头使用AutoML之前,请考虑先找询问公司来个项目(译者:瓜娃子作者是询问公司的托吧),这可能首先挂念您制定数据科学策略。大多数AutoML处理方案供应商也供应询问服务并不是巧合。? 看起来不像是一个完善方案,对吧(来自《南方公园》S2 E17) ??AutoML将会大幅节省数据科学团队的时间 依据2018 Kaggle ML and Data Science Survey, 一个数据可选的项目15-26%的时间花费在建模或者模型选择(Link:/headsortails/what-we-do-in-the-kernels-a-kaggle-survey-story)。 无论是考虑“员工工时”还是消耗的计算时间,这都是一项困难的任务。假如目标或数据发生更改(例如添加新特征),之前的过程就会被反复。AutoML可以挂念公司内的数据科学家节省时间,并将其更多地花费在更重要的事情

文档评论(0)

小文文小库库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档