网站大量收购独家精品文档,联系QQ:2885784924

《金融大数据分析》-课件 第8章 决策树.pptx

《金融大数据分析》-课件 第8章 决策树.pptx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第八章决策树

学习目标理解树的基本概念掌握如何使用决策树进行分类以及回归分析熟悉决策树的训练方法掌握如何使用程序训练以及使用决策树模型

基于树的方法的简介?

什么是树树是一种抽象的结构以表现节点与节点之间的层次关系树的基本结构是节点。最上层的节点只有一个,被称之为根节点深度是对树的结构的一个重要描述性指标。其定义是从叶节点到根节点中最多需要经过多少条边

决策树决策树是一种应用广泛的机器学习方法。在决策树方法中节点代表的是分割样本的规则。以信用违约数据为例:在根结点上,我们对所有数据进行分类。如果收入低于5000元,那么这笔贷款被分为高风险。如果收入高于5000元,那么我们对该申请人是否拥有房产进行分类。如果该申请人没有房产,那么该笔贷款也被分类为高风险,否则该笔贷款被分类为低风险。

决策树由此可见,决策树的原理在于用预定的样本细分。我们根据细分样本对结果进行判定。我们可以清晰的观察模型如何生成预测。因此决策树有很强的可解释性(即我们可以简单的通过分析决策树的分类条件来判定哪些特征影响最终的分类结果)。另外,决策树因为不要求特征与目标变量保持线性关系,因此其也有很高的灵活性。另外,决策树既可以用于回归问题也可以用于分类问题。通常,我们将用于分类问题的决策树为分类树,而用于回归问题的决策树为回归树。

回归树模型训练决策树的模型训练寻找最好的树状结构来取得对数据的细分。我们需要达到的目的是最小化模型的预测误差。沿用线性回归的代价函数:使用残差平方和(??????)作为代价函数

训练决策树模型使用“贪心法”来构造决策树贪心法的意思是我们不考虑全局最优的决策树,而是在每一步对样本细分时,我们争取该细分步骤能最好的提高模型与数据的拟合程度。但是由于我们每次决定对样本二分之后只需考虑该次操作之后对样本如何继续细分,因此这样可以极大减少对计算的要求。

二分方法?

二分方法?

二分方法?

二分方法

二分方法我们将重复这一步骤直到我们达到结束条件。结束分裂的条件包括每个子节点的上的样本量都已经小于可以继续细分的样本量(我们需要在程序中预设最小可细分的样本量)树的深度达到预设深度(我们需要预设树的最大深度)下一次分裂达带来的RSS减小少于我们设定的数值(我们需要预设最小RSS减小的数值)在以上这几个条件中选取一个作为结束条件即可。而结束条件所对应的参数可以当作超参数来进行调节

二分方法图8.5可以很好的展现一个完整的决策树是怎么运作的。我们的目标是预测每股收益率。而特征是每股股价(PPS),市净率(BM),资产回报率(ROA)。

决策树的剪枝决策树的分支过多可能会造成过于复杂的模型。在之前的章节中,我们讨论过可以用正则化来对模型进行简化,以减少预测中的方差。同样的思路也可以用于决策树的训练中。解决办法:限制决策树的大小,比如该决策树的分裂次数,或者每次分裂对于预测误差的降低应该要超过一个较高的数值。首先生成一颗较大的树,然后再对其进行剪枝通过剪枝找到效果较好的子树最弱连接剪枝

决策树的剪枝?

分类树类似于回归树,我们将根据一个数据点的特征来对该数据点进行分类。我们将用该数据点所属的节点对该数据进行分类。而分类的结果则是属于该节点的训练数据中数量最大的分类。因此,如果在一个树的节点上的越多的数据都属于同一个分类,那么我们这个节点的分类准确率越高。

分类树?

分类树?

决策树程序导入相关库

决策树程序数据读取及处理读取名为’ols_training.csv’的CSV文件中的数据,并将其存储在data变量中定义一个特征列表X,包含三个特征名称‘PPS’,‘BM’,‘ROA’从data中选择‘eps_basic’一列作为目标变量,存储在变量y中

决策树程序将数据随机分为训练数据/验证数据使用train_test_split函数将数据划分为训练集和测试集其中测试集占总数据的20%,训练集占总数据的80%,随机种子设为42以使结果可重复

决策树程序模型训练决策树回归分析使用训练好的模型对测试集特征变量进行预测

决策树程序使用mean_squared_error函数计算测试数据和预测结果的均方误差打印均方误差

决策树程序绘制决策树结构

决策树程序

习题知识理解我们使用决策树模型对一个数据集进行拟合。通过交叉验证,我们发现模型在训练数据中的损失远小于验证数据集中的损失。对于这种情况,请回答如下问题:这个问题是过拟合还是欠拟合?以下哪种方法可能可以对于这种问题有所帮助?为什么?(a)减少决策树的深度。(b)对现有决策树的叶节点进行分裂。(c)对决策树进行剪枝。

习题?

习题?

习题程序操作1.请使用分类树模型来训练贷款违约数据。请分别试着使用以下训练结束条件,并评估模型表现:

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档