- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用决策树预测建模
使用决策树的预测建模
TOC \t Heading 2,7 2.1 问题和数据探索
2.2 建模问题和数据难点
2.3 生成和解释决策树 PAGEREF _Toc5761474 \h
.
2.1 问题和数据探索
内容:
问题和数据
初步数据探索
问题和数据
a. 预测建模问题
一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款扩展给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈。
b. 输入数据源
在对数据进行了分析之后,该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型。输出变量(或目标)变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动。这些变量及其模型角色、测量水平、变量描述列表如下。
表 2.1 SAMPSIO.HMEQ 数据集合的变量
Name
Model Role
Measurement Level
Description
BAD
Target
Binary
1=defaulted on loan, 0=paid back loan
REASON
Input
Binary
HomeImp=home improvement, DebtCon=debt consolidation
JOB
Input
Nominal
Six occupational categories
LOAN
Input
Interval
Amount of loan request
MORTDUE
Input
Interval
Amount due on existing mortgage
VALUE
Input
Interval
Value of current property
DEBTINC
Input
Interval
Debt-to-income ratio
YOJ
Input
Interval
Years at present job
DEROG
Input
Interval
Number of major derogatory reports
CLNO
Input
Interval
Number of trade lines
DELINQ
Input
Interval
Number of delinquent trade lines
CLAGE
Input
Interval
Age of oldest trade line in months
NINQ
Input
Interval
Number of recent credit inquiries
需要的结果-信用评分模型
该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值,欺诈概率超过阈值的那些申请人将建议不批准。
建立项目和数据初步探索
建造简单的过程流(Flow)
假定My Project 项目的Project1框图是开着的,通过从工具条上(或Tools标签)拖动Input Data Source节点到diagram工作区把节点加到Project1框图中。
把Multiplot 节点工作区Input Data Source 节点的右边. 你的框图看起来如下图
连接工作区的两个节点:
开始时 最后
调用输入数据
这个例子使用 SAMPSIO文件夹的 HMEQ 数据集合.
要指定数据集合,双击Input Data Source 节点,或右击该节点并选择 Open…. Data 标签处于激活状态. 你的窗口如下:
点击 Select… 来选择数据集合. 或者把数据集合的名称键入进来。
SASUSER 文件夹是缺省文件夹. 要浏览 SAMPSIO 文件夹的数据集合, 点击 并从这些文件夹里选择SAMPSIO
从SAMPSIO 文件夹的数据集合里选择HMEQ 然后选OK. 下面的对话框打开:
可以看到该数据集合里有 5,960 个观测(行)和 13个变量 (列). SAMPSIO.HMEQ 是源数据. 注意在右下角指示的是metadata(元数据) 样本大小为2,000.
所有分析包必须决定在分析中如何使用变量. EM使用元数据对如何使用每一个变量作一个初步的评估。按缺省方式,它从感兴趣的数据集合里随机抽取2,000 个观测记录,并使用这里的信息为每一个变量确定其模型中的作用和变量类型。要抽取一个较大的样本,你得选择对话框右下角Change… 按钮.
点击 Variables 标签可看到所有的变量及其相关的指定.
点击第一列的标头,Name, 这些变量就按名称的顺序排列。把窗口拉大你会看到所有的变量。下表显示了13 个变量的部分信息.
注意有两列显灰色。这些列代表这个节点里不能改变的SA
您可能关注的文档
最近下载
- 能源科技有限公司100MW200MWh储能项目110KV升压站安全预评价报告.doc VIP
- 评估公司内部管理制度.doc VIP
- 西师大版五年级上册小学数学期中试卷.pdf VIP
- PEP三年级英语上册 Unit 6单元练习题.doc VIP
- 新解读《EJ_T 287-2000氚内照射剂量估算与评价方法》最新解读.docx VIP
- 统编人教版高中地理必修第一册第一、二章章节单元测试卷(含答案解析).pdf VIP
- 北师大版八年级数学上册 第二章 实数 单元检测试题(有答案).docx VIP
- 风电、光伏项目前期及建设手续办理流程汇编.docx
- 地籍档案管理基本知识 完整版2025.pdf VIP
- 金属非金属矿山安全规程培训.pptx
文档评论(0)