机器学习中用到的数值分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习中用到的数值分析课案

第四章 背景知识 condition number 从优化或者数值计算的角度来说,L2 范数有助于处理 condition number 不好的情况下矩阵求逆很困难的问题。 如果方阵 A 是奇异的,那么 A 的 condition number 就是正无穷大了。实际上,每一个可逆方阵都存在一个 condition number。 对condition number来个一句话总结:condition number 是一个矩阵(或者它所描述的线性系统)的稳定性或者敏感度的度量,如果一个矩阵的 condition number 在1附近,那么它就是well-conditioned的,如果远大于1,那么它就是 ill-conditioned 的,如果一个系统是 ill-conditioned 的,它的输出结果就不要太相信了。 应用 如果当我们的样本 X 的数目比每个样本的维度还要小的时候,矩阵X T X 将会不是满秩的,也就是X T X 会变得不可逆,所以w ^ 就没办法直接计算出来了。 如果加上L2规则项,就变成了下面这种情况,就可以直接求逆了: condition number一般在矩阵里被定义做最大singular value和最小singular value的比值。一般说来,如果一个矩阵的condition number大于1000,数值计算inv(A)或者解线性方程AX=Y可能会遇到严重的舍入问题,这样的问题通常被称为ill-conditioned。? ?? 最简单的解决方法是把A的diagonal entries都加上一个微小量delta以后再计算——这样做虽然会引入误差,但是可以改善ill-condition。? 梯度 设体系中某处的物理参数(如温度、速度、浓度等)为w,在与其垂直距离的dy处该参数为w+dw,则称为该物理参数的梯度,也即该物理参数的变化率。如果参数为速度、浓度、温度或空间,则分别称为速度梯度、浓度梯度、温度梯度或空间梯度。其中温度梯度在直角坐标系下的表达式如右图。 在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧氏空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅戈比矩阵的一个特殊情况。 在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率。 梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。 在二元函数的情形,设函数z=f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点P(x,y)∈D,都可以定出一个向量 (δf/x)*i+(δf/y)*j 这向量称为函数z=f(x,y)在点P(x,y)的梯度,记作gradf(x,y) 类似的对三元函数也可以定义一个:(δf/x)*i+(δf/y)*j+(δf/z)*k 记为grad[f(x,y,z)] 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。 方向导数(directional derivative)的通俗解释是:我们不仅要知道函数在坐标轴方向上的变化率 (即偏导数),而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。 二阶导数的集合意义: (1)斜线斜率变化的速度 (2)函数的凹凸性. 二阶导数是比较理论的、比较抽象的一个量,它不像一阶导数那样有明显的几何意义,因为它表示的是一阶导数的变化率.在图形上,它主要表现函数的凹凸性,直观的说,函数是向上突起的,还是向下突起的. 应用: 如果一个函数f(x)在某个区间I上有f(x)(即二阶导数)0恒成立,那么对于区间I上的任意x,y,总有: f(x)+f(y)≥2f[(x+y)/2],如果总有f(x)0恒成立,那么在区间I上f(x)的图象上的任意两点连出的一条线段,这两点之间的函数图象都在该线段的下方,反之在该线段的上方. 机器学习中梯度下降法和牛顿法的比较 在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法。由于两种方法有些相似,我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。 梯度下降法 梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为: 可以看出,梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值,前面再加上一个步长控制参数a

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档