机器学习中用到的数值分析.doc

下载文档 降价啦

4
0
约7.45千字
约 17页
2017-05-27 发布于湖北
举报
版权申诉
保障服务

机器学习中用到的数值分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习中用到的数值分析课案

第四章背景知识 condition number 从优化或者数值计算的角度来说，L2 范数有助于处理 condition number 不好的情况下矩阵求逆很困难的问题。如果方阵 A 是奇异的，那么 A 的 condition number 就是正无穷大了。实际上，每一个可逆方阵都存在一个 condition number。对condition number来个一句话总结：condition number 是一个矩阵（或者它所描述的线性系统）的稳定性或者敏感度的度量，如果一个矩阵的 condition number 在1附近，那么它就是well-conditioned的，如果远大于1，那么它就是 ill-conditioned 的，如果一个系统是 ill-conditioned 的，它的输出结果就不要太相信了。应用如果当我们的样本 X 的数目比每个样本的维度还要小的时候，矩阵X T X 将会不是满秩的，也就是X T X 会变得不可逆，所以w ^ 就没办法直接计算出来了。如果加上L2规则项，就变成了下面这种情况，就可以直接求逆了： condition number一般在矩阵里被定义做最大singular value和最小singular value的比值。一般说来，如果一个矩阵的condition number大于1000，数值计算inv(A)或者解线性方程AX=Y可能会遇到严重的舍入问题，这样的问题通常被称为ill-conditioned。???最简单的解决方法是把A的diagonal entries都加上一个微小量delta以后再计算——这样做虽然会引入误差，但是可以改善ill-condition。? 梯度设体系中某处的物理参数(如温度、速度、浓度等)为w，在与其垂直距离的dy处该参数为w+dw，则称为该物理参数的梯度，也即该物理参数的变化率。如果参数为速度、浓度、温度或空间，则分别称为速度梯度、浓度梯度、温度梯度或空间梯度。其中温度梯度在直角坐标系下的表达式如右图。在向量微积分中，标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向，梯度的长度是这个最大的变化率。更严格的说，从欧氏空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上，梯度是雅戈比矩阵的一个特殊情况。在单变量的实值函数的情况，梯度只是导数，或者，对于一个线性函数，也就是线的斜率。梯度一词有时用于斜度，也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。在二元函数的情形，设函数z=f(x,y)在平面区域D内具有一阶连续偏导数，则对于每一点P(x,y)∈D，都可以定出一个向量 (δf/x)*i+(δf/y)*j 这向量称为函数z=f(x,y)在点P(x,y)的梯度，记作gradf(x,y) 类似的对三元函数也可以定义一个：(δf/x)*i+(δf/y)*j+(δf/z)*k 记为grad[f(x,y,z)] 梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。方向导数（directional derivative）的通俗解释是：我们不仅要知道函数在坐标轴方向上的变化率（即偏导数），而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。二阶导数的集合意义：（1）斜线斜率变化的速度（2）函数的凹凸性. 二阶导数是比较理论的、比较抽象的一个量,它不像一阶导数那样有明显的几何意义,因为它表示的是一阶导数的变化率.在图形上,它主要表现函数的凹凸性,直观的说,函数是向上突起的,还是向下突起的. 应用：如果一个函数f(x)在某个区间I上有f(x)（即二阶导数）0恒成立,那么对于区间I上的任意x,y,总有： f(x)+f(y)≥2f[(x+y)/2],如果总有f(x)0恒成立,那么在区间I上f(x)的图象上的任意两点连出的一条线段,这两点之间的函数图象都在该线段的下方,反之在该线段的上方. 机器学习中梯度下降法和牛顿法的比较在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。由于两种方法有些相似，我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为：可以看出，梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值，前面再加上一个步长控制参数a