神经网络于深度学习chap机器概述.pptxVIP

下载本文档

2
0
约1.73千字
约 31页
2021-12-04 发布于北京
举报
版权申诉

神经网络于深度学习chap机器概述.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《神经网络与深度学习》机器学习概述https://nndl.github.io/https://nndl.github.io/机器学习 ≈ 构建一个映射函数“你好”“猫”“5-5”(落子位置)“你好”“今天天气真不错”机器用户输入语音识别图像识别围棋对话系统什么是机器学习？机器学习：从数据中获得决策（预测）函数使得机器可以根据数据进行自动学习，通过算法使得机器能从大量历史数据中学习规律从而对新的样本做决策。独立同分布 p(x,y)常见的机器学习问题聚类分类常见的机器学习类型机器学习的三要素?模型线性方法：广义线性方法：如果为可学习的非线性基函数，就等价于神经网络。学习准则期望风险优化梯度下降损失函数0-1损失函数平方损失函数后验概率的损失函数??交叉熵损失?直接建模条件概率真实条件概率如何衡量两个条件分布的差异？KL散度交叉熵损失??真实概率?预测概率的负对数交叉熵损失函数负对数似然损失函数对于一个三类分类问题，类别为[0,0,1]，预测的类别概率为[0.3,0.3,0.4]，则参数学习?期望风险未知，通过经验风险近似训练数据：经验风险最小化在选择合适的风险函数后，我们寻找一个参数θ? ，使得经验风险函数最小化。机器学习问题转化成为一个最优化问题优化：梯度下降法批量梯度下降法搜索步长α中也叫作学习率（Learning Rate）随机梯度下降法随机梯度下降法（Stochastic Gradient Descent，SGD）也叫增量梯度下降，每个样本都进行更新小批量（Mini-Batach）随机梯度下降法随机梯度下降法提前停止我们使用一个验证集（Validation Dataset）来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降，就停止迭代。机器学习 = 优化？NO！机器学习 = 优化？过拟合：经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。过拟合过拟合：经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。过拟合问题往往是由于训练数据少和噪声等原因造成的。泛化错误经验风险期望风险?泛化错误如何减少泛化错误？优化正则化经验风险最小降低模型复杂度正则化（regularization）L1/L2约束、数据增强权重衰减、随机梯度下降、提前停止线性回归线性回归（Linear Regression）模型：增广权重向量和增广特征向量优化方法经验风险最小化（最小二乘法）结构风险最小化（岭回归）最大似然估计最大后验估计机器学习的几个关键点如何选择一个合适的模型？模型选择拟合能力强的模型一般复杂度会比较高，容易过拟合。如果限制模型复杂度，降低拟合能力，可能会欠拟合。偏差与方差分解期望错误可以分解为模型选择：偏差与方差集成模型：有效的降低方差的方法集成模型通过多个高方差模型的平均来降低方差。集成模型的期望错误大于等于所有模型的平均期望错误的1/M，小于等于所有模型的平均期望错误。PAC学习Probably Approximately Correct近似正确，0 ? 0.5可能，0 δ 0.5根据大数定律，当训练集大小|D|趋向无穷大时，泛化错误趋向于0，即经验风险趋近于期望风险。PAC学习样本复杂度?如果固定?,δ，可以反过来计算出样本复杂度为其中||为假设空间的大小，可以用Rademacher复杂性或VC维来衡量。PAC学习理论可以帮助分析一个机器学习方法在什么条件下可以学习到一个近似正确的分类器。如果希望模型的假设空间越大，泛化错误越小，其需要的样本数量越多。https://nndl.github.io/经验风险??(??)=1/N ∑_(??=1)^N?〖??(??^((??) ), ??(x^((??) ) ))〗结构风险： ??(??)+??‖??‖2ppt有错泛化错误可以衡量一个机器学习模型是否可以很好地泛化到未知数据。机器学习的目标是减少泛化错误。%泛化错误一般表现为一个模型在训练集和测试集上错误率的。L1/L2正则化Dropout如果在验证集上的错误率不再下降，就停止迭代。拉特马赫(Rademacher)