揭开机器学习模型的黑箱.pdf

下载文档 降价啦

69
0
约9.15万字
约 33页
2020-12-25 发布于天津
举报
保障服务

揭开机器学习模型的黑箱.pdf

证券研究报告金工研究/深度研究 2020 年02 月06 日林晓明执业证书编号：S0570516010001 揭开机器学习模型的 “黑箱” 研究员 0755 linxiaoming@ 华泰人工智能系列之二十七陈烨执业证书编号：S0570518080004 研究员 010 本文介绍机器学习解释方法原理，以XGBoost 选股模型为例揭开黑箱 chenye@ 本文介绍六种机器学习模型解释方法的原理，并以华泰XGBoost 选股模型李子钰执业证书编号：S0570519110003 为例，尝试揭开机器学习模型的“黑箱”。机器学习多属于黑箱模型，而资研究员 0755 管行业的伦理需要可解释的白箱模型。除传统的特征重要性外，ICE、PDP、 liziyu@ SDT、LIME、SHAP 都是解释模型的有力工具。揭开选股模型黑箱，我们何康 021 发现：1）价量类因子的重要性整体高于基本面类因子；2）XGBoost 模型联系人 hekang@ 以非线性的逻辑使用因子，因子的非线性特点在市值、反转、技术、情绪因子上体现尤为明显。王晨宇联系人 wangchenyu@ 目前人工智能算法的本质仍是样本拟合，直接使用模型结论可能有风险目前的人工智能算法，即使是近年来发展迅猛的深度神经网络，和线性回相关研究归并无本质上的不同，仍是对样本特征X 和标签Y 进行拟合，区别无非是机器学习模型的非线性拟合能力更强。人工智能并不具备真正的“智能”。 1 《金工: 周期趋同现象的动力学系统模型》模型只能学习特征和标签的相关关系，但无法挖掘其中的因果关系。如果 2020.01 不将机器学习模型的黑箱打开，不弄清机器学习模型的“思考”过程，直 2 《金工: 从微观同步到宏观周期》2019.12 接使用机器学习的判断结果，可能带来较大的风险。 3 《金工: 基于投入产出表的产业链分析》 2019.12 近年来研究者提出诸多机器学习模型解释方法，核心思想各有不同近年来研究者提出诸多机器学习模型解释方法，除了传统的特征重要性外， ICE、PDP、SDT、LIME、SHAP 都是揭开机器学习模型黑箱的有力工具。特征重要性计算依据某个特征进行决策树分裂时，分裂前后的信息增益。 ICE 和 PDP 考察某项特征的不同取值对模型输出值的影响。SDT 用单棵决策树解释其它更复杂的机器学习模型。LIME 的核心思想是对于每条样本，寻找一个更容易解释的代理模型解释原模型。SHAP 的概念源于博弈论，核心思想是计算特征对模型输出的边际贡献。应用多种机器学习模型解释方法，揭开XGBoost 选股模型的“黑箱” 我们应用多种机器学习模型解释方法，对以2013~2018 年为训练和验证集、 2019 年整年为测试集的模型进行分析，尝试揭开XGBoost 选股模型的“黑箱”。特征重要性和SDT 的结果表明，价量类因子的重要性整体高于基本面

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

揭开机器学习模型的黑箱.pdf