网站大量收购独家精品文档,联系QQ:2885784924

《金融大数据分析》-课件 第4章 逻辑回归.pptx

《金融大数据分析》-课件 第4章 逻辑回归.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章逻辑回归;学习目标;案例:贷款违约预测;案例:贷款违约预测;我们将使用四个特征(即用于预测的变量)来对违约进行预测:

申请者的年收入(年收入高的申请人不太可能出现因现金流短缺而无法还款的情况)

负债收入比(负债相对收入越高,还款越困难)

现有住房数量(如果申请人已经购房说明其经济状况良好,并且平时消费习惯也比较健康)

以及工作年限(可以代表申请者的工作稳定性);逻辑回归方法;?;?;逻辑函数例子;模型训练:代价函数;模型训练:代价函数;?;?;?;?;模型训练:梯度下降;模型应用:决策边界;?;当我们考虑更多的特征时,决策边界将具有更高的维度

若模型中有三个特征,则决策边界是二维的平面。如果有更多特征,则决策边界由更高的线性组合表示。因此,只有在特征数量较少的时候才能用图像来很好的表示分类边界。;模型应用:系数的推断;?;?;多分类问题;多分类问题:Softmax回归;多分类问题:Softmax回归;4.5如何编写逻辑回归程序——statsmodels;数据读取及处理

读取名为train_sample_small.csv’的CSV文件中的数据,并将其存储在train_sample变量中。定义特征列表’fea_cols’,包含四个特征名称:工作年限,住房所有量,年收入,以及负债收入比。

从train_sample中选取fea_cols列作为特征,存储到train_x中,选取’isDefault’列作为目标变量,存储到对象train_y中。

对train_x中的’dti’列和’employmentYear’列进行填充,使用每列数据的中位数填充缺失值。由于大部分算法无法处理含有缺失值的数据,数据填充经常是非常重要的一步。之后我们会对如何填充缺失值进行更详细的介绍。

为特征列添加常数项,结果存储到train_x_sm中。;;使用statsmodel来训练逻辑回归模型

创建一个逻辑回归模型对象est,其中因变量为train_x,自变量为train_y

使用fit方法训练样本对逻辑回归模型进行拟合,结果存储到对象est2中

打印est2摘要信息,包括各个参数的值和统计量等;运行结果如图;;打印结果如下:

用边际效应可以解读特征变化如何影响违约概率。例如,dti=0.0033,说明如果负债收入比增加1,那么违约概率预计会增加0.33%。;如何编写逻辑回归程序??—sklearn;;数据读取及处理

读取名为‘train_sample_small.csv’的CSV文件中的数据,并将其存储在train_sample变量中

定义一个特征列表fea_cols,包含特征名称‘employmentYear’,‘homeOwnership’,annualIncome’,‘dti’

; 从train_sample中选取fea_cols列作为特征,存储到train_x中,选取’isDefault’列作为目标变量,存储到对象train_y中

对train_x中的’dti’列和’employmentYear’列进行填充,使用每列数据的中位数填充缺失值

创建一个StandardScaler对象,用于对数据进行标准化处理

使用scaler的fit方法计算数据集train_x的平均值和标准偏差

; 使用transform方法对train_x中的特征数据进行标准化处理(处理后的特征平均值为0,标准方差为1)。

将标准化处理后的数据train_x_standardized转化为DataFrame格式,并将结果存储在train_x_standardized中,同时定义列名为特征列表fea_cols。

使用sklearn.linear_model中的LogisticRegression函数建立逻辑回归模型。创建一个逻辑回归模型对象Logit,设置最大迭代次数为10000,设置正则化参数为None。

;?;对比statsmodel的api模块的结果(两种程序运行结果一致):

首先,添加截距项(statsmodel不会自动添加截距项),将结果存储到train_x_sm中。

创建一个逻辑回归模型对象est,使用sm.Logit函数,其中因变量为train_x_sm,自变量为train_y。

使用fit方法对模型进行拟合,并将结果存储在est2中。打印est2的摘要信息,包括各个参数的值和统计量等。;4.6习题;程序操作,请使用贷款违约预测数据进行以下操作:

1.基于程序部分,输出模型对数据集中前五个数据点的预测,并比较概率预测与分类预测的结果

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档