- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第5章回归问题1目录030201回归问题的损失函数回归问题概述回归的基本原理任务任务任务1回归问题概述1回归问题概述在机器学习中,回归是一种有监督学习,主要是从中发现变量之间的相关性,确定变量间的关系式,从而预测输出的变量值;回归问题主要用于预测某连续变量或离散变量的数值,例如:预测PM2.5、预测房屋价格、电商用户购买可能性等;回归问题包括一元线性回归和多元线性回归。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合。2回归的基本原理2回归的基本原理(1)一元线性回归一元线性回归是回归问题中最为简单的回归问题,可以将一元线性回归理解为:对给出的N个点(x,y),找到一条能够拟合这些点的直线:y=wx+b公式中,y是目标变量,即未来要预测的值;x是影响y的因素,称为自变量,w和b是公式上的参数,即要求的模型参数。2回归的基本原理目标变量的影响因素可以是连续值也可以是离散值,自变量和目标变量之间的关系称为模型,影响目标变量的因素只有一个x,所以这类回归问题叫做一元线性回归。比如:当只考虑房屋面积因素时,房价预测模型构建问题就属于一元线性回归问题。一元线性回归图像2回归的基本原理(2)多元线性回归现实生活中,往往影响结果y的因素不止一个,例如影响房子价格的因素还可能有房子的位置、楼层等因素,这时x就从一个变成了n个,x1~xn,同时简单线性回归的公式也就不在适用了。多元线性回归公式如下:y=w1x1+w2x2+……+wnxn公式中,y是目标变量,即未来要预测的值;x1、x2……xn是影响y的多元因素。2回归的基本原理可以将二元线性回归理解为使用一个平面拟合平面中的一些点:二元线性回归图像3回归问题的损失函数3回归问题的损失函数机器学习的所有算法都需要最大化或者最小化目标函数,在最小化场景下,目标函数又称损失函数。在回归问题中,有2种最常用的损失函数:(1)平均绝对误差(2)均方误差3回归问题的损失函数(1)平均绝对误差平均绝对误差(MeanAbsoluteError,MAE),又称L1损失,用于评估预测结果和真实数据集的接近程度,其值越小说明拟合效果越好。公式如下:优点:对异常值具有较好鲁棒性;缺点:梯度不变是个严重问题,即使对于很小的损失,梯度也很大,不利于模型收敛,常使用变化的学习率解决。3回归问题的损失函数(2)均方误差均方误差(Meansquarederror,MSE),又称L2损失,该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值,其值越小说明拟合效果越好。公式如下:优点:计算方便,逻辑清晰,衡量误差较准确,收敛效果好。缺点:对异常点会赋予较大的权重,如果异常点不属于考虑范围,是由于某种错误导致的,则此函数指导方向将出现偏差。1案例分析目例实施案例目标环境配置任务任务任务任务1案例目标1案例目标掌握回归的概念及原理;掌握回归模型的搭建方法;掌握回归问题使用的损失函数和评估指标;掌握使用pandas包的数据分析方法;掌握图形可视化包seaborn的使用。2案例分析2案例分析汽车燃油效率预测问题是回归问题中的经典案例;本案例通过燃油效率预测问题,使用Keras框架实现回归问题的建模流程;案例采用AutoMPG数据集,它记录了各种汽车效能指标与气缸数、重量、马力等其它因子的真实数据,2案例分析查看数据集的前5组数据,如表所示,其中:mpg(燃油效率)、cylinders(气缸)、displacement(排量)、horsepower(马力)、weight(重量)、acceleration(加速度)、modelyear(型号年份)、origin(产地)。除了产地的数字字段表示类别外,其他字段都是数值类型。对于产地,1表示美国,2表示欧洲,3表示日本。3环境配置2环境要求Windows10Jupyternotebooktensorflow==2.3.0、keras==2.3.1matplotlib==3.3.2seaborn==0.12.1pandas==1.15.14案例实施4案例实施部分代码示例:1、导入包4案例实施2、加载数据集4案例实施3、构建全连接神经网络模型4案例实施4、训练模型1目录020301过拟合及解决办法过拟合与欠拟合概述欠拟合及解决办法任务任务任务1过拟合与欠拟合概述1过拟合与欠拟合概述对于深度学习或机器学习模型来说,我们不仅要求它对训练数据集有很好的拟合,同时也希望它可以对未知数据集(测试集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差。度量泛化能力的好坏,最直观的表现就是模型的过拟合(overfitti
您可能关注的文档
最近下载
- 财务管理第6章自测练习.docx VIP
- YY_T0521-2018牙科学 种植体 骨内牙种植体 动态疲劳试验.docx VIP
- DB21T 3419-2021 农业废弃物堆沤肥料生产技术规程.docx VIP
- 鼻饲法教学课件.ppt VIP
- 保洁项目内部考核管理制度.docx VIP
- 2023年湖南师范大学公共课《马克思主义基本原理概论》期末试卷B(有答案).docx VIP
- SANGFOR_GAP_V3.0安全隔离与信息交换系统_用户手册.pdf VIP
- 马克思主义基本原理(湖南师范大学)知到智慧树期末考试答案题库2024年秋湖南师范大学.docx VIP
- 2025年健康企业管理题库及答案.doc VIP
- 食品安全英文PPT.ppt VIP
原创力文档


文档评论(0)