Python金融数据分析与应用课件第5章数据建模：有监督学习.pptxVIP

下载本文档

3
0
约1.59万字
约 48页
2025-04-19 发布于山东
举报
版权申诉

Python金融数据分析与应用课件第5章数据建模：有监督学习.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第5章数据建模:有监督学习Python金融数据分析与应用（微课版）

目录CONTENTS有监督学习5.1线性回归5.2逻辑回归5.3决策树5.4随机森林5.5

5.1有监督学习

5.1.1有监督学习简介5.1有监督学习【案例5-1】IPO首日成交量预测IPO定义-首次公开发行（InitialPublicOffering），公司首次向公众发行股票。IPO的核心作用-筹集资金：用于业务扩张、投资等。-市场关注：投资者通过IPO评估公司价值和市场热度。IPO首日表现的重要性-反映市场对该公司的认可度。-影响投资者决策和公司后续股价走势。现实问题-关键问题：哪些发行信息（如发行价、发行规模）影响首日表现（如成交量、涨跌幅）？-应用价值：帮助投资者制定策略，优化公司IPO定价。

5.1.1有监督学习简介关注的目标称为：输出变量、因变量、响应变量或标签影响因素称为：输入变量、自变量或特征机器学习的目的从历史数据中发掘输入变量与输出变量的关系或规则利用这种关系或规则对未来进行预测模型训练：关系或规则的发现过程有监督的学习训练模型时，存在一个指导标准（标签），即以输出变量的真实值为模型训练标准明确区分了输入变量和输出变量案例目标：希望基于数据建立IPO首日成交量的预测模型，希望预测结果接近实际结果（有监督的学习）5.1有监督学习

5.1.1有监督学习简介【案例5-2】上市公司ST预测ST的概念：股票特别处理（SpecialTreatment），A股市场中对高风险公司的标记。ST触发原因：财务困境（如连续亏损）、违规违法或信披问题、其他重大经营风险等市场标识：股票名称前加注ST字样监管要求：强制信息披露，限期整改，否则可能暂停上市ST预测的意义:规避风险，优化投资组合（投资者视角）；预警市场风险，维护秩序（监管层视角）；提前识别危机，避免退市（公司视角）案例目标：希望通过历史数据训练ST的预测模型，尽可能地准确预测公司未来的ST状态（有监督的学习）关注的目标影响因素5.1有监督学习

5.1.1有监督学习简介案例对比案例问题类型目标变量案例5-1：IPO首日成交量预测回归问题连续值（首日交易股数）案例5-2：上市公司ST预测分类问题类别（ST=1/非ST=0）Tips:诸多有监督学习模型中，有的仅能解决回归问题，比如线性回归模型；有的仅能解决分类问题，比如逻辑回归模型；有的能同时解决这两类问题，比如决策树与随机森林需要仔细体会与区分各类模型的应用场景，以便针对现实问题选择更合适的模型回归问题预测目标是连续变量如案例5—1的问题、利润预测、营收预测等分类问题预测目标是变量是定性变量如案例5—2的问题(二分类)、风险评级（多分类）问题等5.1有监督学习

5.1.2性能度量需要一套标准来度量模型的应用效果，从诸多模型中挑选出最适合解决当前问题的模型，这便是模型性能度量回归预测模型的性能度量度量指标表达式特点平均绝对误差最符合对误差的理解，数学处理不方便，不够直观，越小越好均方误差方便数学处理，对异常值可能敏感，不够直观，越小越好均方根误差本质与MSE一致，单位与目标变量一致，不够直观，越小越好R方无量纲，直观，越接近1越好5.1有监督学习

5.1.2性能度量需要一套标准来度量模型的应用效果，从诸多模型中挑选出最适合解决当前问题的模型，这便是模型性能度量分类预测模型的性能度量混淆矩阵（适用于二分类问题）实际值预测值010TNFP1FNTP度量指标表达式特点正确率度量整体预测效果敏感性（R）侧重于正类的预测效果特异性侧重关注负类的预测效果查准率（P）关注做出正类预测时，预测的准确率F1分数综合考虑敏感性与查准率的指标综合考虑敏感性与查准率，但对二者赋予不同权重5.1有监督学习

5.1.2性能度量模型泛化能力的度量实践中，我们不仅关心模型能否解释现有数据，更关心模型面对新数据时的表现，也就是模型的泛化能力，或者说外推能力由于未来数据无法提前获取，为了提前了解模型的泛化能力，需要采取合理的方法对其进行估计为了估计模型的泛化能力，一个常用的做法是对数据集进行划分。一部分数据用于模型训练，称作训练集；另一部分数据被看作新数据，用于验证模型的泛化能力，称作测试集基于训练集得到的模型，在测试集上计算出来的模型性能度量指标可以看作模型泛化能力的度量常用的数据集划分方法留出（HoldOut）法按照一定的比例随机将数据集划分为两个部分适用于样本量比较大的情况K折交叉验证（K-foldCross-Validation）法将数据集随机近似等分为K份，每次留出一份作为测试集

您可能关注的文档

文档评论（0）

释然 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python金融数据分析与应用课件第5章数据建模：有监督学习.pptxVIP