量化金融原理与实践第10章 决策树及随机森林.pptx

量化金融原理与实践第10章 决策树及随机森林.pptx

第10章决策树及随机森林通过对数据集进行递归分割,构建树状结构,每个内部节点表示一个属性或特征,每个叶子节点表示一个类别或回归值。随机森林是一种集成学习方法,基于决策树构建组合模型,通过构建多个决策树并整合预测结果来进行决策。章节概述决策树与随机森林的定义决策树(DecisionTree):通过对数据集进行递归分割,构建树状结构,每个内部节点表示一个属性或特征,每个叶子节点表示一个类别或回归值随机森林(RandomForest):一种集成学习方法,基于决策树构建组合模型,通过构建多个决策树并整合预测结果来进行决策应用领域分类问题、回归问题、特征选择、异常检测金融风控、市场营销信用评分、证券市场预测、风险管理、金融产品组合推荐

本章案例介绍案例背景银行客户认购产品预测分析目标根据客户基本信息(年龄,职业,婚姻,违约,房贷等),预测客户是否会购买银行产品技术要点参数调整与优化利用经济金融知识优化特征值提高模型运行效率和可解释性结果可视化与美化

图10.1本章主要内容结构本章将系统介绍决策树及随机森林的基本概念、算法原理、建模流程,并通过银行客户认购产品预测案例展示完整的数据分析与建模过程。

10.1决策树及相关概念10.1.1决策树决策树的定义决策树是用来进行决策的树状模型,在机器学习中通常被用来分类或预测。决策树示例购买苹果的决策过程:首先根据苹果是否红来进行决策。如果苹果不红,则决策结果为不买。如果苹果红,则进行下一步判断。

决策树的基本组成节点类型:根节点(rootnode):最初的分支节点叶子节点(leafnode):不再有分支的节点,即最终的结果子节点/中间节点(internalnode/intermediatenode):其余的节点图10.2决策树示意图

10.1.2决策树构建的相关细节关键因素1如何找到一个效果最好的特征进行分类关键因素2在何时让树停止生长决策树构建的核心在于选择最优分类特征和确定合适的停止条件,这两个因素直接影响模型的性能和泛化能力。

基本概念(一):熵与信息增益熵(Entropy)反映分支下样本种类的丰富性。样本种类越多越混乱,则熵越大。样本完全属于同一类,则熵等于零。决策树通过层层分类使熵快速降低。熵降低速度越快,分类效率越高。信息增益(InformationGain)定义:父节点的样本熵值-子节点的样本加权平均熵值反映不同特征作为分类依据时熵值降低的速度。ID3算法的核心思想:选择信息增益最大的特征进行分类。

信息增益计算示例(二)表10.1信息熵计算一序号X1X2X3Y110002100031101...............153000结论:属性X_3的信息增益最大(0.42),应选择X_3作为根节点进行分类。

基本概念(二):拟合问题欠拟合(Underfitting)原因:样本信息不足(特征少、样本量不足等)结果:模型训练程度不足或过于简单表现:对测试集预测不准确过拟合(Overfitting)原因:模型对训练集进行过于深度的学习,甚至学习了数据中的噪声结果:对训练集拟合精度过高,但泛化能力降低表现:对测试集预测能力下降注意:决策树算法容易出现过拟合问题,很少出现欠拟合

剪枝操作剪枝的目的防止模型过拟合预剪枝(Pre-pruning)时机:在决策树构建过程中进行方法:设定超参数限制决策树的学习深度限制子节点中的最小样本量限制父节点达到最小样本量才允许分枝限制分枝时考虑的特征个数限制最小信息增益优点:可结合网格搜索选择较优超参数,应用广泛且效果好后剪枝(Post-pruning)时机:决策树模型构建完毕后方法:从叶子节点开始,一层层往上剪枝应用:实际问题中应用较少

交叉验证定义:将样本划分为不同的训练集和验证集,分别训练模型并计算验证集准确率,最后取平均值K折交叉验证进行K次验证称为K折交叉验证每次使用不同的训练集和验证集组合图10.34折交叉验证示意图

网格搜索定义:通过指定超参数的取值范围,计算机自动按步长依次建立决策树模型。指定超参数的取值范围按步长依次建立模型对每组超参数采用交叉验证评估选出准确度最高的一组超参数及其对应的模型优势:自动化参数优化,提高模型性能。

10.1.3决策树算法流程核心思想找到最优特征和最优候选值,递归分割数据集数据准备预处理,包括缺失值填充、异常值处理、特征编码等。特征选择在每个内部节点计算所有特征的信息增益/信息增益率(ID3/C4.5)或基尼不纯度(CART),选取最优特征生成分支根据选定特征的最佳分割点划分数据集,创建分支递归生长对每个子集重复上述过程,直至满足停止条件剪枝优化通过后剪枝或预剪枝简化决策树结构,提升泛化能力

10.1.4字典数据类型的重要方法字典基本格式{key:value}key:字典的键(

文档评论(0)

1亿VIP精品文档

相关文档