《金融大数据分析》-课件第4章逻辑回归.pptx

下载文档

1
0
约2.24千字
约 42页
2025-03-29 发布于山东
举报
版权申诉
保障服务

《金融大数据分析》-课件第4章逻辑回归.pptx

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第4章逻辑回归;学习目标;案例：贷款违约预测;案例：贷款违约预测;我们将使用四个特征（即用于预测的变量）来对违约进行预测：

申请者的年收入（年收入高的申请人不太可能出现因现金流短缺而无法还款的情况）

负债收入比（负债相对收入越高，还款越困难）

现有住房数量（如果申请人已经购房说明其经济状况良好，并且平时消费习惯也比较健康）

以及工作年限（可以代表申请者的工作稳定性）;逻辑回归方法;?;?;逻辑函数例子;模型训练：代价函数;模型训练：代价函数;?;?;?;?;模型训练：梯度下降;模型应用：决策边界;?;当我们考虑更多的特征时，决策边界将具有更高的维度

若模型中有三个特征，则决策边界是二维的平面。如果有更多特征，则决策边界由更高的线性组合表示。因此，只有在特征数量较少的时候才能用图像来很好的表示分类边界。;模型应用：系数的推断;?;?;多分类问题;多分类问题：Softmax回归;多分类问题：Softmax回归;4.5如何编写逻辑回归程序——statsmodels;数据读取及处理

读取名为train_sample_small.csv’的CSV文件中的数据，并将其存储在train_sample变量中。定义特征列表’fea_cols’，包含四个特征名称：工作年限，住房所有量，年收入，以及负债收入比。

从train_sample中选取fea_cols列作为特征，存储到train_x中，选取’isDefault’列作为目标变量，存储到对象train_y中。

对train_x中的’dti’列和’employmentYear’列进行填充，使用每列数据的中位数填充缺失值。由于大部分算法无法处理含有缺失值的数据，数据填充经常是非常重要的一步。之后我们会对如何填充缺失值进行更详细的介绍。

为特征列添加常数项，结果存储到train_x_sm中。;;使用statsmodel来训练逻辑回归模型

创建一个逻辑回归模型对象est，其中因变量为train_x，自变量为train_y

使用fit方法训练样本对逻辑回归模型进行拟合，结果存储到对象est2中

打印est2摘要信息，包括各个参数的值和统计量等;运行结果如图;;打印结果如下：

用边际效应可以解读特征变化如何影响违约概率。例如，dti=0.0033，说明如果负债收入比增加1，那么违约概率预计会增加0.33%。;如何编写逻辑回归程序??—sklearn;;数据读取及处理

读取名为‘train_sample_small.csv’的CSV文件中的数据，并将其存储在train_sample变量中

定义一个特征列表fea_cols，包含特征名称‘employmentYear’，‘homeOwnership’，annualIncome’,‘dti’

; 从train_sample中选取fea_cols列作为特征，存储到train_x中，选取’isDefault’列作为目标变量，存储到对象train_y中

对train_x中的’dti’列和’employmentYear’列进行填充，使用每列数据的中位数填充缺失值

创建一个StandardScaler对象，用于对数据进行标准化处理

使用scaler的fit方法计算数据集train_x的平均值和标准偏差

; 使用transform方法对train_x中的特征数据进行标准化处理（处理后的特征平均值为0，标准方差为1）。

将标准化处理后的数据train_x_standardized转化为DataFrame格式，并将结果存储在train_x_standardized中，同时定义列名为特征列表fea_cols。

使用sklearn.linear_model中的LogisticRegression函数建立逻辑回归模型。创建一个逻辑回归模型对象Logit，设置最大迭代次数为10000，设置正则化参数为None。

;?;对比statsmodel的api模块的结果（两种程序运行结果一致）：

首先，添加截距项（statsmodel不会自动添加截距项），将结果存储到train_x_sm中。

创建一个逻辑回归模型对象est，使用sm.Logit函数，其中因变量为train_x_sm，自变量为train_y。

使用fit方法对模型进行拟合，并将结果存储在est2中。打印est2的摘要信息，包括各个参数的值和统计量等。;4.6习题;程序操作，请使用贷款违约预测数据进行以下操作：

1.基于程序部分，输出模型对数据集中前五个数据点的预测，并比较概率预测与分类预测的结果

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《金融大数据分析》-课件第4章逻辑回归.pptx