《机器学习常用模型及优化.docxVIP

下载本文档

6
0
约1.68千字
约 8页
2017-01-13 发布于北京
举报
版权申诉

《机器学习常用模型及优化.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《机器学习常用模型及优化

第一章模型建立1.1 回归模型：条件：数据假设的模型结果：用模型对数据学习，预测新数据1.1.1一元线性回归模型（最小二乘法）它通过最小化误差的平方和寻找数据的最佳函数匹配我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归假设从总体中获取了n组观察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）平方损失函数1.1.2逻辑回归模型将线性回归中的一次模型变成逻辑回归函数，即sigmoid函数。或者：其他的思路和想法与线性回归一样，所以说逻辑回归的模型是一个非线性模型，但是它本质上又是一个线性回归模型损失函数（误差函数）为：1.1.3 softmax回归它是逻辑回归的扩展从分类的角度来说，逻辑回归只能将东西分成两类（0,1），softmax可以分成多类逻辑回归中，模型函数（系统函数）为：Softmax回归中，模型函数（系统函数）为：1.2 神经网络模型1.2.1 神经元首先来一个三输入单输出的神经元，输入输出都是二进制（0,1）。举例来说：X1表示天气是否好X2表示交通是否好X3表示是否有女朋友陪你Y表示你是否去电影院看电影要让这个神经元工作起来，需要引入权重，w1,w2,w3。这样就有了：（1）W1表示”天气是否好”对你做决定的重要程度W2表示”交通是否好”对你做决定的重要程度W3表示”是否有女朋友陪你”对你做决定的重要程度Threshold越低表示你越想去看电影，风雨无阻你都想去。Threshold越高表示你越不想去看电影，天气再好也白搭。Threshold适中表示你去不去电影院要看情况，看心情。1.2.2神经网络现在扩展一下：这样就出现神经网络了，可以看出这是很多神经元组合成的。把上面的（1）式中的threshold用偏移量-b表示，并且移到不等式左边，出现下面（2）式：（2）例子就不举了，原文是实现与非门的一个例子，说明这个东西可以进行逻辑推理，它就很有潜力了，电脑就是靠逻辑加运算来实现各种功能。现在要用这个东西学习识别手写字体，我们的想法是这样的：举例来说，电脑错把9当成了8，那么我们希望通过自动调整w或b来对output进行调整，以达到正确的结果。这时网络会自己“学习”了。具体是这样的：其中是sigmoid函数：下面是sigmoid函数的图形它是阶梯函数的一个平滑：输出通过w和b进行微调的式子是这样的：这个式子比较抽象，它只是战略性的一个式子，下面引入cost函数来进行战术实践。Cost函数是评价模型准确与否的一个函数，它可能越大越好，也可能越小越好，看你怎么构造了。这里用均方误差来构造：这个函数越小越好，所以通过使这个函数变得最小来得到最好的w和b，也就是达到最好的学习效果。1.3 最大似然估计X的一个样本X1，X2，…，Xn独立同分布，其观测值为x1，x2，…，xn。，其中参数未知根据X1，X2，…，Xn的观测值x1，x2，…，xn来估计模型参数。假如这组数据服从B(1,p)，p未知求得到取极大值时的p，即为所求第二章模型优化2.1 遗传算法有个博客讲的很好，用袋鼠跳问题形象的比喻这个问题，类似的算法还有模拟退火法。2.2 梯度下降法一句话来说就是求损失函数或似然函数的极值，我们自己算的话就是求个导就完事了，但是有些函数的导数特别难求，这时候就需要梯度下降法，交给电脑迭代几次就算出来了举例来说，求损失函数的最小值：2.3 牛顿法对于非线性优化，假设任务是优化一个目标函数，求解其极大极小值，转化为求问题，是不是回到了上面的问题？二阶泰勒级数：二阶泰勒级数成立的充要条件是无限趋于0，两边约去和，并对求导，得到：解得：所以得到迭代式：红色是牛顿法，绿色是梯度下降法，牛顿法更容易收敛。高维情况的牛顿迭代公式：其中，是hessian矩阵：Hessian矩阵的引入使得高维情况下牛顿法较为少用，但是有人已提出解决方案Quasi-Newton method。