- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第11章监督学习的小结
学习目标本章的学习目标如下:熟悉不同模型的优缺点比较了解如何使用特征重要性了解如何使用SHAP值增加模型可解释性熟悉使用程序实现模型的可解释性方法
简介首先,我们先回顾一下监督学习的应用场景。然后,我们将对介绍过的主要模型进行一些简单的比较。然后,我们介绍如何为复杂模型增加可解释性。
监督学习方法的总结
监督学习在金融中的应用监督学习这一类方法在金融业中有着广泛的应用场景。监督学习既可以用于对回归问题(即对连续变量的预测)也可以对分类问题进行预测。监督学习的特点是我们需要给一些例子用来训练模型中的参数。而作为例子的训练数据中必须有特征变量(即??变量)以及目标变量(即??变量)的数值。一旦模型训练完成,我们就可以用来预测新的数据。
监督学习在金融中的应用我们已经讨论过几种应用,包括预测贷款违约及对公司基本面的预测。除了这些应用之外,我们还可以将其用于其他预测问题。例如,我们可以预测公司股价变化,房价的涨跌幅度,以及经济指数的变化。根据具体的问题以及数据量,我们可以选择适合的监督学习的方法。
监督学习模型比较
监督学习模型比较该图可见,简单的模型的优势是有着很好的可解释性,也有着较低的计算成本。复杂的模型则往往会牺牲可解释性以及较少的计算量。但是复杂的模型可以更好的对数据进行拟合。在减少过拟合问题的同时,复杂模型也有更高的过拟合的风险。为了减少过拟合的风险,我们需要对模型进行验证。我们也可以通过正则化方法来减少模型的方差,减少过拟合问题。
复杂模型的可解释性如前一部分讨论的那样,随着模型复杂性的增加,我们模型的可解释性往往会极大下降。本章中,我们将简单介绍两种方法来给复杂的模型增加一定的可解释性。
特征重要性分析?
特征重要性分析?
特征重要性
SHAP值?
SHAP值
SHAP值
SHAP值?
程序
导入库使用pandas存储数据导入sklearn库model_selection模块的train_test_split函数,用于划分训练集和测试集导入sklearn库ensemble模块的RandomForestRegressor类,用于创建随机森林回归模型导入shap库,用于解释机器学习模型的预测结果
导入库
数据读取及处理?
使用随机森林模型创建一个随机森林回归模型对象rf_model,设置随机种子为42,树的数量设置为100,最小样本分裂为10使用fit方法对X_train和y_train进行随机森林回归分析
特征重要性获取随机森林回归模型的特征重要性,并将其保存在变量feature_importances中打印特征重要性根据特征重要性对特征进行排序,indices为排序后的索引将特征名称根据排序后的索引重新排列,names中存储的即为排序后的特征名称列表
特征重要性绘制一个条形图,x轴为特征的索引,y轴为特征的重要性,特征的重要性由feature_importances提供,特征的索引由indices提供
特征重要性
使用Shap增加模型可解释性创建一个shap解释器对象explainer,explainer可以用来解释rf_model对任意输入数据的预测结果使用Explainer对象对测试集数据进行解释,得到每个特征对预测结果的影响值,存储在shap_values变量中使用shap库的plots.waterfall函数绘制一个瀑布图,来可视化shap_values中第一个元素的影响
使用Shap增加模型可解释性
习题
知识理解?
程序操作请使用随机森林来拟合贷款违约数据。请使用特征重要性来阐述哪些变量对模型的结果有着较大的影响。请使用Shap值对特征的重要性以及其影响的方向做出解读。请选择数据中的前3个数据点,并使用Shap值来阐述数据中的特征如何影响到模型对这三个数据点的预测结果。
您可能关注的文档
- 《金融大数据分析》-课件 第1章 数据的管理与探索.pptx
- 《金融大数据分析》-课件 第 12 章 主成分分析.pptx
- 《金融大数据分析》-课件 第 19 章.pptx
- 《金融大数据分析》-课件 第2章 数学以及统计学回顾.pptx
- 《金融大数据分析》-课件 第3章 线性回归.pptx
- 《金融大数据分析》-课件 第4章 逻辑回归.pptx
- 《金融大数据分析》-课件 第5章 其他基础监督学习方法.pptx
- 《金融大数据分析》-课件 第6章 模型验证.pptx
- 《金融大数据分析》-课件 第7章模型选择与正则.pptx
- 《金融大数据分析》-课件 第8章 决策树.pptx
- 专题02+时事热点(精讲课件)2025年中考地理二轮复习讲练测(安徽专用).pptx
- 专题10+经济建设 2025年中考道德与法治二轮复习讲练测(广东专用).pptx
- 专题02+西游记【名著概览】+-+2025年中考语文必读名著演练.pptx
- 专题七+认识国家(课件)-【省心备考】2025年中考地理一轮复习优质课件.pptx
- 第22课《礼记》二则——《大道之行也》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 跨学科实践15:制作“龙骨水车”(课件)-2024-2025学年八年级物理下学期项目化课程案例.pptx
- 第13课_辽宋夏金元时期的对外交流(课件)2024-2025学年七年级历史下册同步教学课件.pptx
- 选择题专项讲解——综合类(课件)2025年初中道德与法治中考选择题练习.pptx
- 第21课《庄子》二则——《北冥有鱼》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 7.3+感受澳大利亚(第二课时)-2025学年七年级地理下册同步精品课堂(晋教版2024).pptx
最近下载
- 第16讲 光的直线传播-2024年新八年级物理暑假提升自学课讲义(人教版2024)(解析版).docx VIP
- 国际商法教案.docx VIP
- 2025年鼎和财产保险股份有限公司人员招聘笔试备考试题及答案解析.docx
- 飞机发电机讲解.ppt
- 大数据与人工智能智慧树知到期末考试答案2024年.docx
- 2024年广东深圳市龙岗区总工会社会化工会工作者招聘笔试参考题库附带答案详解.pdf VIP
- 2024年贵州省中考适应性考试九年级数学试题和答案详解.docx
- 大学物理实验坐标纸.doc
- 小学低年级数学游戏教学的问题与对策研究——以开福区荷叶小学为例.docx VIP
- 直流电机PWM控制调速系统设计.doc VIP
文档评论(0)