AI基础知识介绍.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

AI基础知识介绍

机器学习主要价值就是学习一个经验E,根据这个学习到的经验E去执行

一个任务T,目标是优化执行任务T的表现P。

比如:在银行,根据数据,AI学习客户表现和客户信用之间的关系,这个

关系是经验E;然后为每个客户实时计算更准确的信用卡额度,这个是任务T;

目标P是在一定风险承担范围内,增加银行信用卡收入。

1机器学习的基础流程

请大家明晰,这七步是在干什么,以什么逻辑和时间轴。后续的介绍将聚

焦在其中一两个步骤。但我们经常混淆,比如混淆AI训练和AI执行任务。

1.选择算法。比如,刚才银行的例子,我们先要对客户进行分类找到黑名

单,这是分类算法,也要通过客户行为预测他的额度水平,这是回归算法。前

篇对于Transformer的讨论,就是一个最新的高级一些的算法。

2.准备高质量的数据,并进行特征工程。通常这些要花费很多时间,特别

是工业界,往往没有高质量的数据。这里数据质量有四个层面:一是绝对的数

据量,这个好理解。二是样本数据,比如,在银行风控领域,如果只是交易数

据,那不是样本,必须有真正的欺诈数据;比如,在设备管理领域,不但要有

设备的运行数据,还要有设备的故障数据,这样机器才可以真正学习。三是数

据的处理效率,对于AI真正有价值的往往是实时数据,这是发挥AI决策最大

价值的关键。四是特征工程,只有数据是不够的,要进行处理,拿出机器可以

理解而且有价值的特征才是根本。最简单的例子就是男、女要分别改成0或

1。特征工程是AI计算最重要的领域,整个深度学习的神经网络可以理解为就

是在做数据的特征工程。

3.对数据用算法进行训练。这个训练的过程才是让机器有能力执行任务的

关键步骤,而且很多计算算法的逻辑也针对的这部分。我们讲算力是决定性因

素,也往往指训练阶段的算力瓶颈。

4.训练结束一般还要做很多测试,确保这个经验是能够应对多种情况,从

而真正形成经验E。

5.经验E要用到生产系统,实时地执行任务T。比如,上面例子中,我们核

心任务是对每个用户的信用额度动态调整。

6.评估执行表现。AI的表现相对于人工会提升多少,和计划是否有偏差

等。

7.持续优化。这里的优化是全方位的,既要更新算法,提高数据质量,又

要有更拟合的训练结果及更实时地执行任务等。经常听客户说,AI可能在我们

这里落地效果不好。其实AI在哪里落地,刚开始时效果都不会好,真正让AI

起作用,是需要持续优化。第四范式的很多AI驱动的客户,也把这一条当做自

己重要的核心竞争力,即持续迭代的能力。

2机器学习的理论基础

我们先从这个经验E如何训练出来谈起。

假设,这个经验E可以抽象成一个线性关系(当然现实世界不一定是简单

的线性关系,这里只是简单化处理),即设Y=f(x)=wx+b,x是银行数据(比如:

还款逾期率),Y是信用额度。我们要学习的经验E,就是学习这个f(),这个概

念很重要,建议停下来稍加理解。

要想得到f(),需要先拿一些样本(也就是我们事先知道一些x数据,以及

对应的y)进行训练。

例如:

信用额度还款逾期率

1000000%

200005%

12000015%

10000012.4%

8000035%

我们希望利用这些x到y的样本,反推出f()这个线性函数。在还款逾期率这

个x和信用卡额度y这个空间里,我们有个很多样本,需要预测的是这条直线

y=wx+b长什么样。我们可以给机器设置一个规定的步长,穷举出很多y=wx+b。

但应该选择哪个呢?这里要引入:

文档评论(0)

百分卷 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档