- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Standford机器学习 逻辑回归(Logistic Regission)以及过拟合问题解决(Regularization)
Standford 机器学习 逻辑回归(Logistic Regission )以
及过拟合问题解决(Regularization )
By Jackie_Zhu 更多Standford 机器学习笔记,请关注我的博客
/usingnamespace_std/article/details/8895270
1. 分类问题
判断一封邮件是否为垃圾邮件,判断肿瘤是良性的还是恶性的,这些都是分类问题。在分
类问题中,通常输出值只有两个(一般是两类的问题,多类问题其实是两类问题的推广)
(0 叫做负类,1 叫做正类)。给定一组数据,标记有特征和类别,数据如
(x(i),y(i) ),由于输出只有两个值,如果用回归来解决会取得非常不好的效果。
在良性肿瘤和恶性肿瘤的预测中,样本数据如下
上图是用线性归回得到的结果,那么可以选定一个阈值0.5,建立该模型后就可以预测:
如果训练数据是这样的
很明显,这样得到的结果是非常不准确的。线性回归中,虽然我们的样本输出数据都只有
0 和1,但是得到的输出却可以有大于1 和小于0 的,这不免有点奇怪。Logistic Regission
的假设就是在0 和1 之间的。
2. Logistic Regission
我们希望的是模型的输出值在0 和1 之间,逻辑回归的假设,这个假设的推导在网易
公开课的广义线性模型中有提到(分类的概率满足伯努利分布),这个以后再说
g(z) 的函数图象是这样的一个S 型曲线
现在只要假定,预测输出为正类的概率为H (x;theta) (因为根据该曲线,H 是1 的时候
输出刚好是1),根据概率之和为1,可以得出如下式子
根据这个式子就可以来预测输出的分类了。和前面的线性回归一样,h(x)大于 0.5 的话,
输出有更大的概率是正类,所以把它预测成正类。
从S 型曲线可以看出,h(x)是单调递增的,如果h(x)0.5 则theta*x0 反之,theta*x0,
这个反映到x 的坐标下,theta*x=0 刚好是一条直线,theta*x0 和theta*x0 分布在该
直线的两侧,刚好可以把两类样本分开。
如果数据是这样的,很明显一条直线无法将它隔开
因此需要像多项式回归一样在x 中添加一些feature,如
和前面一样y=theta0+theta1*x1+theta2*x2+theta3*x1^2+theta4*x2^2=0 是一条曲线,y0
和y0 分布在该曲线两侧。得到了以上模型,只要用学习算法学习出最优的theta 值就
行了。
要学习参数theta ,首先要确定学习的目标,即Cost Function 。在线性回归中,我们选
取的Cost Function 是 ,
使得每个样本点到曲线的均方误差最小,要注意Logistic Regission 中,h(x)带入J 中得
到的一个函数不是Convex 的,形状如这样
因此这样的一个J(theta)不能用梯度下降法得到最优值,因为有多个极值点。
由于这个文类问题中,两类的概率满足伯努利分布,所以
这两个式子可以写成
给定一些样本点,可以使用极大似然估计来估计这个模型,似然函数为:
这里要求L(theta) 的最大值,所以在前面添个负号就变成了求最小值,就可以用梯度下
降法求解了。
观察J 的前后两项,都是单调函数,因此J 是Convex 函数,目标就是要最小化这个函
数,因此可以用梯度下降法。
求偏导之后发现这个式子和线性回归中的那个式子的相同的,要注意的是这里的
h(theta)和线性回归中的是不一样的,需要区分。这样就得到了逻辑回归的分类模型!
3. 过拟合问题以及解决方法(Regularization )
下面三个例子中,二是拟合的比较好的,一中有着较大的MSE ,不是很好的模型,这
种情况叫做under fit ,第三种情况虽然准确得拟合了每一个样本点,但是它的泛华能
力会很差,这种情况叫做overfit 。
在Logistic Regression 中,上面三种情况对应的就是
Underfit 和Overfit 是实践过程中需要避免的问题,那么如何避免过拟合问题呢?
第一种方法就是减少feature,上面的例子中可以减少x^2 这样的多项式项。
第二种方法就是这里要介绍的Regularization ,Regularization 是
您可能关注的文档
最近下载
- 广西壮族自治区南宁市2023-2024学年八年级上学期期末地理试题(含答案).pdf VIP
- 13-1 2024级财税大数据应用专业人才培养方案.docx VIP
- 广西壮族自治区南宁市2023-2024学年八年级上学期期末地理试题.docx VIP
- 急性气管-支气管炎的临床护理.pptx
- 2024-2025学年北京朝阳区四年级(上)期末英语试卷(含答案).pdf
- 化学反应工程第6章 气-液反应及反应器.pptx
- 管理工程系-财税大数据应用专业人才培养方案.pdf VIP
- 新能源汽车技术(第二版)教学课件汇总全书电子教案(全).ppt
- [补车]囚于永夜by麦香鸡呢.doc
- 二年级下册数学期末复习八大专项练习.pdf
文档评论(0)