机器学习的过程分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习的过程分析

机器学习的过程主要分为三个步骤:样本准备、算法选取、模型评估。

1.样本准备

机器学习,需要先学习才能预测判断,样本则是机器学习的信息输入,

样本的质量很大程度上决定了机器学习的效果。以人脸识别为例,其样

本是大量的人脸图片。那么,大量的样本如何获取?按数据来源分类,

可分为内部样本和外部样本。

(1)内部样本

内部样本数据,一般可基于内部已积累的样本数据,或通过对产品进行

数据标注或者埋点,来收集更多维度的样本数据。

(2)外部样本

若数据的量级或丰富度不够,则可能需要获取一些外部样本。比如通过

搜索典型的大型公开数据集,或者数据爬取等方式,来获取一些指定场

景的新样本。

2.算法选取

在机器学习的过程中,找到接近理想模型(函数)的方法即算法。机器

学习的常用算法很多,不同的算法,解决的问题不同,适用的场景也不

同。

如下图,比如解决聚类问题,一般使用无监督学习算法,分类问题,一

般使用有监督学习算法:支持向量机SVM、神经网络等,目前神经网

络依然是研究热点之一。

(1)神经网络原理

神经网络是一种模仿人类思考方式的模型,就像飞机模仿鸟的形态一样,

神经网络也借鉴了生物学的神经元结构。神经元细胞主要由树突、轴突

和细胞体构成,树突用于接收信号并传递给细胞体,细胞体处理信号,

轴突输出信号。神经网络结构与此类似,一个典型的单隐含层神经网络

架构如下图:

图片来源:网络

•输入层:接收输入数据,如图片、语音特征等;

•隐藏层:承载数据特征运算;

•输出层:输出计算的结果;

其本质是,通过调整内部大量处理单元的连接关系、激励函数和权重值,

实现对理想函数的逼近。

(2)深度学习

深度学习是神经网络的一种算法,目前在计算机视觉等领域应用十分广

泛,相比单隐藏层神经网络结构,深度学习神经网络是一种多隐藏层、

多层感知器的学习结构。如下图所示,增加更多的隐藏层后,网络能更

深入得表示特征,以及具有更强的函数模拟能力,能获得更好的分类能

力。

图片来源:网络

深度学习三类经典的神经网络分别是:深度神经网络DNN、卷积神经

网络CNN、和循环神经网络RNN。其中DNN、CNN一般解决计算机

视觉、图像识别等分类问题,RNN适用于自然语言处理等问题。

基于大量的样本、选取合适的算法进行模型训练后,下一步则是对模型

的预测效果进行评估。

3.模型评估

模型评估一般可分为两个阶段:实验阶段和上线阶段,在实验阶段能达

到一定的使用标准指标,才能进入实际上线使用阶段。

(1)实验阶段

为了评估模型的可用性,需要对模型的预测能力进行评价,其中很重要

的一个评价指标就是准确率,即模型预测和标签一致的样本占所有样本

的比例。即选择不同于训练数据的,有标签数据的测试集,输入模型进

行运算,计算预测的准确率,评估模型对于测试集的预测效果是否能模

型可用指标。

(2)上线阶段

在模型投入使用后,基于上线后的真实数据反馈,评估模型的能力,并

基于新的反馈数据,持续迭代优化模型,提高或保持模型的泛化能力。

文档评论(0)

150****6477 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档