- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第4章逻辑回归;学习目标;案例:贷款违约预测;案例:贷款违约预测;我们将使用四个特征(即用于预测的变量)来对违约进行预测:
申请者的年收入(年收入高的申请人不太可能出现因现金流短缺而无法还款的情况)
负债收入比(负债相对收入越高,还款越困难)
现有住房数量(如果申请人已经购房说明其经济状况良好,并且平时消费习惯也比较健康)
以及工作年限(可以代表申请者的工作稳定性);逻辑回归方法;?;?;逻辑函数例子;模型训练:代价函数;模型训练:代价函数;?;?;?;?;模型训练:梯度下降;模型应用:决策边界;?;当我们考虑更多的特征时,决策边界将具有更高的维度
若模型中有三个特征,则决策边界是二维的平面。如果有更多特征,则决策边界由更高的线性组合表示。因此,只有在特征数量较少的时候才能用图像来很好的表示分类边界。;模型应用:系数的推断;?;?;多分类问题;多分类问题:Softmax回归;多分类问题:Softmax回归;4.5如何编写逻辑回归程序——statsmodels;数据读取及处理
读取名为train_sample_small.csv’的CSV文件中的数据,并将其存储在train_sample变量中。定义特征列表’fea_cols’,包含四个特征名称:工作年限,住房所有量,年收入,以及负债收入比。
从train_sample中选取fea_cols列作为特征,存储到train_x中,选取’isDefault’列作为目标变量,存储到对象train_y中。
对train_x中的’dti’列和’employmentYear’列进行填充,使用每列数据的中位数填充缺失值。由于大部分算法无法处理含有缺失值的数据,数据填充经常是非常重要的一步。之后我们会对如何填充缺失值进行更详细的介绍。
为特征列添加常数项,结果存储到train_x_sm中。;;使用statsmodel来训练逻辑回归模型
创建一个逻辑回归模型对象est,其中因变量为train_x,自变量为train_y
使用fit方法训练样本对逻辑回归模型进行拟合,结果存储到对象est2中
打印est2摘要信息,包括各个参数的值和统计量等;运行结果如图;;打印结果如下:
用边际效应可以解读特征变化如何影响违约概率。例如,dti=0.0033,说明如果负债收入比增加1,那么违约概率预计会增加0.33%。;如何编写逻辑回归程序??—sklearn;;数据读取及处理
读取名为‘train_sample_small.csv’的CSV文件中的数据,并将其存储在train_sample变量中
定义一个特征列表fea_cols,包含特征名称‘employmentYear’,‘homeOwnership’,annualIncome’,‘dti’
; 从train_sample中选取fea_cols列作为特征,存储到train_x中,选取’isDefault’列作为目标变量,存储到对象train_y中
对train_x中的’dti’列和’employmentYear’列进行填充,使用每列数据的中位数填充缺失值
创建一个StandardScaler对象,用于对数据进行标准化处理
使用scaler的fit方法计算数据集train_x的平均值和标准偏差
; 使用transform方法对train_x中的特征数据进行标准化处理(处理后的特征平均值为0,标准方差为1)。
将标准化处理后的数据train_x_standardized转化为DataFrame格式,并将结果存储在train_x_standardized中,同时定义列名为特征列表fea_cols。
使用sklearn.linear_model中的LogisticRegression函数建立逻辑回归模型。创建一个逻辑回归模型对象Logit,设置最大迭代次数为10000,设置正则化参数为None。
;?;对比statsmodel的api模块的结果(两种程序运行结果一致):
首先,添加截距项(statsmodel不会自动添加截距项),将结果存储到train_x_sm中。
创建一个逻辑回归模型对象est,使用sm.Logit函数,其中因变量为train_x_sm,自变量为train_y。
使用fit方法对模型进行拟合,并将结果存储在est2中。打印est2的摘要信息,包括各个参数的值和统计量等。;4.6习题;程序操作,请使用贷款违约预测数据进行以下操作:
1.基于程序部分,输出模型对数据集中前五个数据点的预测,并比较概率预测与分类预测的结果
您可能关注的文档
- 《金融大数据分析》-课件 第1章 数据的管理与探索.pptx
- 《金融大数据分析》-课件 第 11 章 监督学习的小结.pptx
- 《金融大数据分析》-课件 第 12 章 主成分分析.pptx
- 《金融大数据分析》-课件 第 19 章.pptx
- 《金融大数据分析》-课件 第2章 数学以及统计学回顾.pptx
- 《金融大数据分析》-课件 第3章 线性回归.pptx
- 《金融大数据分析》-课件 第5章 其他基础监督学习方法.pptx
- 《金融大数据分析》-课件 第6章 模型验证.pptx
- 《金融大数据分析》-课件 第7章模型选择与正则.pptx
- 《金融大数据分析》-课件 第8章 决策树.pptx
- 专题02+时事热点(精讲课件)2025年中考地理二轮复习讲练测(安徽专用).pptx
- 专题10+经济建设 2025年中考道德与法治二轮复习讲练测(广东专用).pptx
- 专题02+西游记【名著概览】+-+2025年中考语文必读名著演练.pptx
- 专题七+认识国家(课件)-【省心备考】2025年中考地理一轮复习优质课件.pptx
- 第22课《礼记》二则——《大道之行也》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 跨学科实践15:制作“龙骨水车”(课件)-2024-2025学年八年级物理下学期项目化课程案例.pptx
- 第13课_辽宋夏金元时期的对外交流(课件)2024-2025学年七年级历史下册同步教学课件.pptx
- 选择题专项讲解——综合类(课件)2025年初中道德与法治中考选择题练习.pptx
- 第21课《庄子》二则——《北冥有鱼》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 7.3+感受澳大利亚(第二课时)-2025学年七年级地理下册同步精品课堂(晋教版2024).pptx
最近下载
- 第16讲 光的直线传播-2024年新八年级物理暑假提升自学课讲义(人教版2024)(解析版).docx VIP
- 国际商法教案.docx VIP
- 2025年鼎和财产保险股份有限公司人员招聘笔试备考试题及答案解析.docx
- 飞机发电机讲解.ppt
- 大数据与人工智能智慧树知到期末考试答案2024年.docx
- 2024年广东深圳市龙岗区总工会社会化工会工作者招聘笔试参考题库附带答案详解.pdf VIP
- 2024年贵州省中考适应性考试九年级数学试题和答案详解.docx
- 大学物理实验坐标纸.doc
- 小学低年级数学游戏教学的问题与对策研究——以开福区荷叶小学为例.docx VIP
- 直流电机PWM控制调速系统设计.doc VIP
文档评论(0)