- 13
- 0
- 约4.09千字
- 约 86页
- 2020-07-18 发布于浙江
- 举报
机器学习与应用-第三天
第二天知识回顾
课程第三天
1、回归算法-线性回归分析
2、线性回归实例
3、回归性能评估
4、分类算法-逻辑回归
5、逻辑回归实例
6、聚类算法-kmeans
7、k-means实例
回归算法-线性回归分析
回忆回归问题的判定?
线性模型
试图学得一个通过属性的线性组合来进行预测的函数:
线性回归
预测结果与真实值是有一定的误差
单变量:
多变量:
损失函数(误差大小)
尽量去减少这个损失(两种方式)
如何去求模型当中的W,使得损失最小?
(目的是找到最小损失对应的W值)
最小二乘法之正规方程(不做要求)
注:X,y代表着什么?
损失函数直观图(单变量举例)
w1
w0
直接求解到最小值
最小二乘法之梯度下降(理解过程)
我们以单变量中的w0,w1为例子:
理解:沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后
更新W值
使用:面对训练数据规模十分庞大的任务
表示方向
正规方程与梯度下降的对比?
sklearn线性回归正规方程、梯度下降API
sklearn.linear_model.LinearRegression
正规方程
sklearn.linear_model.SGDRegressor
梯度下降
LinearRegression、SGDRegressor
sklearn.linear_model.LinearRegression()
普通最小二乘线性回归
coef_:回归系数
sklearn.linear_model.SGDRegressor( )
通过使用SGD最小化线性模型
coef_:回归系数
线性回归实例
1、sklearn线性回归正规方程、梯度下降API
2、波士顿房价数据集分析流程
波士顿房价数据案例分析流程
1、波士顿地区房价数据获取
2、波士顿地区房价数据分割
3、训练与测试数据标准化处理
4、使用最简单的线性回归模型LinearRegression和
梯度下降估计SGDRegressor对房价进行预测
回归性能评估
(均方误差(Mean Squared Error)MSE) 评价机制:
sklearn回归评估API
sklearn.metrics.mean_squared_error
mean_squared_error(y_true, y_pred)
均方误差回归损失
y_true:真实值
y_pred:预测值
return:浮点数结果
mean_squared_error
注:真实值,预测值为标准化之前的值
1、LinearRegression与SGDRegressor评估
2、特点:线性回归器是最为简单、易用的回归模型。
从某种程度上限制了使用,尽管如此,在不知道特征之
间关系的前提下,我们仍然使用线性回归器作为大多数
系统的首要选择。
小规模数据:LinearRegression(不能解决拟合问题)以及其它
大规模数据:SGDRegressor
问题:训练数据训练的很好啊,误差也不大,为什么在测试集上
面有问题呢?
经过训练后,知道了天鹅是有翅膀的,天鹅的嘴巴是长长的。简单的认为有这些特征的都是天鹅。因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
分析上图1
分析上图2
机器通过这些图片来学习天鹅的特征,经过训练后,知道了天鹅是有翅膀的,天鹅的嘴巴是长长的弯曲的,天鹅的脖子是长长的有点曲度,天鹅的整个体型像一个2且略大于鸭子。这时候机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
欠拟合
过拟合
模型复杂度
过拟合与欠拟合
过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合:一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)
对线性模型进行训练学习会变成复杂模型
欠拟合原因以及解决办法
原因:
学习到数据的特征过少
解决办法:
增加数据的特征数量
过拟合原因以及解决办法
原因:
原始特征过多,存在一些嘈杂特征,
模型过于复杂是因为模型尝试去兼顾
各个测试数据点
解决办法:
进行特征选择,消除关联性大的特征(很难做)
交叉验证(让所有数据都有过训练)
正则化(了解)
尽量减小高次项
特征的影响
作用:可以使得W的每个元素都很小,都接近于0
优点:越小的参数说明模型越简单,越简单的模型则越不
容易产生过拟合现象
L2正则化
带有正则化的线性回归-Ridge
sklearn.linear_model.Ridge
Ri
您可能关注的文档
最近下载
- TIME时代 TDN 5000 全数字气保焊机使用说明书.pdf VIP
- 锂硫电池课件PPT.pptx VIP
- 人教版七年级英语下册全套新测试卷(配2025年春改版教材).pdf
- 2023年国家统一法律职业资格考试客观卷二真题含答案解析.docx VIP
- 大型可变体变构型航天器动力学模型重构方法.pdf VIP
- SMW 工法桩施工技术、质量要点.docx VIP
- 2025年军队文职人员统一招聘面试( 信息保障)预测题及答案.doc VIP
- 中国能源大数据报告(2025).docx VIP
- 政治试卷贵州省贵阳市2026届高三年级质量监测(11.21-11.22).docx VIP
- T_CRHA 073—2024(成人清洁间歇导尿护理).pdf VIP
原创力文档

文档评论(0)