网站大量收购独家精品文档,联系QQ:2885784924

《金融大数据分析》-课件 第 11 章 监督学习的小结.pptx

《金融大数据分析》-课件 第 11 章 监督学习的小结.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第11章监督学习的小结

学习目标本章的学习目标如下:熟悉不同模型的优缺点比较了解如何使用特征重要性了解如何使用SHAP值增加模型可解释性熟悉使用程序实现模型的可解释性方法

简介首先,我们先回顾一下监督学习的应用场景。然后,我们将对介绍过的主要模型进行一些简单的比较。然后,我们介绍如何为复杂模型增加可解释性。

监督学习方法的总结

监督学习在金融中的应用监督学习这一类方法在金融业中有着广泛的应用场景。监督学习既可以用于对回归问题(即对连续变量的预测)也可以对分类问题进行预测。监督学习的特点是我们需要给一些例子用来训练模型中的参数。而作为例子的训练数据中必须有特征变量(即??变量)以及目标变量(即??变量)的数值。一旦模型训练完成,我们就可以用来预测新的数据。

监督学习在金融中的应用我们已经讨论过几种应用,包括预测贷款违约及对公司基本面的预测。除了这些应用之外,我们还可以将其用于其他预测问题。例如,我们可以预测公司股价变化,房价的涨跌幅度,以及经济指数的变化。根据具体的问题以及数据量,我们可以选择适合的监督学习的方法。

监督学习模型比较

监督学习模型比较该图可见,简单的模型的优势是有着很好的可解释性,也有着较低的计算成本。复杂的模型则往往会牺牲可解释性以及较少的计算量。但是复杂的模型可以更好的对数据进行拟合。在减少过拟合问题的同时,复杂模型也有更高的过拟合的风险。为了减少过拟合的风险,我们需要对模型进行验证。我们也可以通过正则化方法来减少模型的方差,减少过拟合问题。

复杂模型的可解释性如前一部分讨论的那样,随着模型复杂性的增加,我们模型的可解释性往往会极大下降。本章中,我们将简单介绍两种方法来给复杂的模型增加一定的可解释性。

特征重要性分析?

特征重要性分析?

特征重要性

SHAP值?

SHAP值

SHAP值

SHAP值?

程序

导入库使用pandas存储数据导入sklearn库model_selection模块的train_test_split函数,用于划分训练集和测试集导入sklearn库ensemble模块的RandomForestRegressor类,用于创建随机森林回归模型导入shap库,用于解释机器学习模型的预测结果

导入库

数据读取及处理?

使用随机森林模型创建一个随机森林回归模型对象rf_model,设置随机种子为42,树的数量设置为100,最小样本分裂为10使用fit方法对X_train和y_train进行随机森林回归分析

特征重要性获取随机森林回归模型的特征重要性,并将其保存在变量feature_importances中打印特征重要性根据特征重要性对特征进行排序,indices为排序后的索引将特征名称根据排序后的索引重新排列,names中存储的即为排序后的特征名称列表

特征重要性绘制一个条形图,x轴为特征的索引,y轴为特征的重要性,特征的重要性由feature_importances提供,特征的索引由indices提供

特征重要性

使用Shap增加模型可解释性创建一个shap解释器对象explainer,explainer可以用来解释rf_model对任意输入数据的预测结果使用Explainer对象对测试集数据进行解释,得到每个特征对预测结果的影响值,存储在shap_values变量中使用shap库的plots.waterfall函数绘制一个瀑布图,来可视化shap_values中第一个元素的影响

使用Shap增加模型可解释性

习题

知识理解?

程序操作请使用随机森林来拟合贷款违约数据。请使用特征重要性来阐述哪些变量对模型的结果有着较大的影响。请使用Shap值对特征的重要性以及其影响的方向做出解读。请选择数据中的前3个数据点,并使用Shap值来阐述数据中的特征如何影响到模型对这三个数据点的预测结果。

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档