网站大量收购独家精品文档,联系QQ:2885784924

大数据管理与应用 课件 第三章 大数据管理与应用的机器学习基础.pptx

大数据管理与应用 课件 第三章 大数据管理与应用的机器学习基础.pptx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第三章大数据管理与应用的机器学习基础;随着大数据时代的到来,各个行业对数据分析的需求持续增加,通过机器学习从大量数据中提取有效的信息,已经成为当前人工智能技术发展的主要推动力,并且已经广泛用于解决商务领域中的决策与管理问题。在本章中您将了解机器学习的概念,掌握机器学习的四要素,明确机器学习中的模型评估与选择方法,了解机器学习的理论基础。

机器学习概述

机器学习的分类

模型评估与选择

计算学习理论;01;?;在现实问题中,我们经常面临很大的假设空间,而数据集中的样本通常是有限的。因此,有可能存在多种模型都能拟合数据集的情况,即存在一个与数据集一致的假设空间,称为“版本空间”。机器学习在学习过程中对某种模型的偏好,称为“归纳偏好”。

然而,机器学习中没有一个普适的模型能够解决所有的学习问题,这也被称为“没有免费的午餐”定理。

“奥卡姆剃刀”是一种常用的从版本空间中选取模型的方法,即在同样的条件下,应该优先选择较为简单模型。;?;在无监督学习中,数据集中只有输入数据而没有标签,无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律。因此无监督学习是没有经验知识的学习,有时也被称为“知识发现”。

聚类分析是无监督学习的代表,它能够根据数据的特点将数据划分成多个没有交集的子集,每个子集被称为簇,簇可能对应一些潜在的概念,但需要人为总结和定义。例如对用户进行精准营销前需要对用户进行细分,就可以通过聚类分析实现。

在许多现实问题中,对样本打标签的成本有时很高,因而只能获得少量带有标签的样本。在这种情况下,半监督学习可以让模型不依赖人工干预、自动地利用未标记样本来提升学习性能,从而充分利用有标签和无标签的样本。例如在生物学领域,对某种蛋白的结构或功能标记需要花费生物学家多年的功夫,而大量的未标记样本却很容易得到,半监督学习就提供了一条利用这些未标记样本的途径。

;?;?;性能度量就是对模型的泛化能力进行评估,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的??判结果。

分类问题的性能度量

错误率与精度

精确率、召回率与F1分数

ROC曲线与AUC

回归问题的性能度量??

均方误差

均方根误差

平均绝对误差

平均绝对百分比误差;?;过拟合(Overfitting)与欠拟合(Underfitting)是机器学习中的一组现象。如图3-4所示,过拟合一般是由于模型过于复杂或参数过多而导致模型对训练数据过度拟合的现象,而欠拟合则是由于模型过于简单或参数过少而导致模型难以训练数据的现象,这两种现象均能导致模型的预测值与真实值之间出现较大的差距。

;?;?;?;谢谢!

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档