- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章数据挖掘例2
第三讲:信用评级模型 主讲:梁满发 工作目标 数据抽样 数据变换 设置变量角色 数据探测 变量变换 变量筛选 设置目标函数信息 数据过滤 建模数据集划分 回归预测模型 神经网络预测模型 决策树预测模型 模型评估 整合模型 模型评估 预测程序代码 预测 浏览预测结果 生成报告 模型迭代停止,使模型过度似合可能性最小。 树模型是先将观测数据分到不同组中,再获得每组的得分。树模型分成回归树和分类树,回归树的响应变量是连续的;分类树的响应变量是离散型定量变量或定性变量。 回归树生成的拟合值: 分类树生成的拟合概率: 划分规则:选择划分规则意味着从现有的方法中选择了一个分类器,选择最好的划分。 错分不纯性 Gini不纯性 熵不纯性 剪枝: 当没有停机准则时,根据因变量的数值和级别值、树模型可以一直增长直到每一个节点都包含相同的观测数据,这显然不是一个简约的划分。因此,当树达到一定规模时,很有必要停止树的增长,最终得到的理想树模型应既简约又准确。 CART剪枝方法:首先树构成最大尺寸,这可能使树的叶子个数很多。然后根据成本复杂度原则,对树进行修剪或剪枝。剪枝原则是从优化的方式生成子树,它使损失函数最小。 结论:3层树为最佳模型 保证模型的稳健性 模型评估测度选择“平均损失最小”,其它选择默认项。 三个模型的拟合的总均方误接近,从最小损决策原则来看,决策树模型最差,回归模型和神经网络模型各有千秋,可以考虑综合两模型。 整合模型(Ensemble mode)就是对前续模型,以平均后验概率(分类目标变量)或平均预测值(区间目标变量)作为响应预测值而建立的模型。 整合回归模型和神经网络模型,选择“combined”模型。选择验效数据集训练模型。 模型响应率 模型响应捕获率始终优于随机抽样 模型提升率始终优于随机抽样 使用模型预测单位样本的平均损失始终好于随机抽样。若于总损失来说,得分前50%左右的观测值为拒绝者。 * 信用评级就是对贷款申请者进行信用评估,目的是减少贷方(银行、投资公司、信用卡公司)的金融风险。 信用评级模型还可用于人才甄聘、绩效考核、投资风险评估、犯罪识别等工作中。 现在我们以某金融机构对客户信用卡申请审批工作为背景,运用数据挖掘方法建立信用评分的模型,对申请者给以信用评分,产生一个自动决策系统帮助决定接受或拒绝信用申请。 我们把信用合格者视为响应,不合格者视为非响应。我们要作信用评级就是寻找信用合格者与不合格者之间的行为模式或社会背景的差别,以此来判别某种特定的申请者信用。因此,我们必须要有足够的高质量的客户信用观察数据,既要包括足够的响应和非响应,以及相应的客户金融行为信息和社会背景信息,这些信息可是区别不同信用者因素。 在此,我们有某德国银行的客户信用的历史数据,数据文件名为SAMPSIO.DMAGECR。数据含有1000个申请者观察,其中有21个变量, good_bad是表示信用的二值响应变量。它是从银行内部一个更大的数据库中抽样出来的,原数据库中仅有10%的响应(信用不合格者),为了有足够的响应数据供分析,才取了重抽样方式,抽取的样本中响应占样本数的30%。 除good_bad变量外的其它20变量意义如下: 社会人口变量 Marital:性别与婚姻状况 Age:年龄 Resident:在现住所的居住年数 Telephon:电话号码 个人和金融变量 Checking:银行帐户情况 Savings:存款数量 History:使用信用卡情况 Property:财富、保险情况 Coapp:担保情况 Job:职业类型 Employed:工作年限 Foreign:是否是外国职员 债权人财产变量 Housing:房产情况 Depends:动产数 Existcr:在本银行是否有信用卡 具体贷款变量 Amount:信用卡保证金 Purpose:贷款目的 Duration:贷款期 Installp:可支配收入情况 Other:其它资产 status of existing checking account 1: ... 0 DM 2: 0 = ... 200 DM 3: ... = 200 DM 4: no checking account nominal or ordinal input checking credit amount interval input amount age in years interval input age Description Measurement Model Role Variable duration in months interval input durations number of dependents interval inp
文档评论(0)