- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于weka平台的
个人信用评级模型设计与实现
目录
第一章 概论 3
1.1 课题背景 3
1.2 实验目的 3
1.3 问题与挑战 3
第二章 数据准备与预处理 4
2.1 数据采集 4
2.2 数据预处理 4
2.2.1 数据清理 4
2.2.2数据变换 5
第三章 建立模型与分类实现 6
3.1 贝叶斯分类方法 6
3.2基于决策树的方法 7
3.3支持向量机方法 8
第四章 模型评估与比较 10
4.1 预测精确度及效率比较 10
4.1.1 预测精度比较 10
4.1.2 效率比较 10
4.2 模型应用分析与限制 11
4.2.1 个人信用评估模型应用分析 11
4.2.2 个人信用评估模型应用限制 12
第五章 后记 14
5.1 任务分配 14
5.2 个人收获 14
基于weka平台的个人信用评级模型设计与实现
第一章 概论
1.1 课题背景
随着改革开放步伐的加快,世界经济全球化的融合,越来越多的中小型企业在机遇和挑战的夹缝中艰难求存,越来越多的工薪族在面对价格不断上涨的房子面前望而却步,贫富差距增加,贫困人口想要改变现状步履艰难。在这种状况下,贷款融资成为一个走向成功的突破口。
然而,曾经普通人想要向贷款不啻于上青天。首先,大的国有银行通常只服务大客户,商业贷款动辄上百上千万,对于中小型企业和个人,因为风险大,收益少,通常不在其考虑之列。其次,中小型城市迅速发展,但是城市底层,农村乡镇等地方,银行深入不到。最后,民间贷款(高利贷)现象纷乱,扰乱市场秩序。
至此,许多小额贷款公司应运而生,某些大企业,诸如阿里等大型企业也开始将目光放注于这土地,纷纷开启小额贷款。小额贷款(MicroCredit)是以个人或家庭为核心的经营类贷款,其主要的服务对象为广大工商个体户、小作坊、小业主。贷款的金额一般为1000元以上,1000万元以下。
然而,无论是对个人还是对信贷公司来说,贷款都不能盲目。贷款金额的大小,是否具有偿还能力等等都是需要仔细考量的。
1.2 实验目的
为信贷公司建立一个信用等级评估系统,对贷款人的家庭状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性进行分析,由此来对贷款人进行信用等级的划分,目前将其分为A,B,C三个等级,属于对应信用等级的贷款人具有相应的贷款金额上限。
1.3 问题与挑战
对目前已有的贷款人数据的婚姻状况,个人年收入,固定资产估值,教育水平,有无历史拖欠记录等属性在weka平台上按等级进行划分,每个人的属性都属于不同的等级,全方位综合的将其分类为不同信用等级,以此作为训练集估测出一个分类模型,对于今后需要贷款的人在此模型上进行评估以确定该贷款人的信用等级,信贷公司可依据此等级来确定对其的贷款金额的大小。
第二章 数据准备与预处理
2.1 数据采集
个人客户信用评级从婚姻、年收入、工作年限、固定资产估值、教育水平、拖欠记录次数等六个方面来分析借款人的信用状况。
在实际的商业银行环境中,并非对所有的大客户的个人信息都有科学的管理,根据我国商业银行的实际情况以及国外多家金融机构的信用评级情况,评估客户的信用情况要考虑四大主要因素:申请人的自然情况、职业情况、家庭情况、与银行的业务往来关系。这四大因素实际上是对信用评级体系的一种综合反映,具体包括以下因素:
(1)自然情况:年龄、性别、婚姻状况、健康状况、文化程度、住宅类型、当前住宅居住时间;
(2)职业情况:单位性质、职业、职位、职称、在当前单位的工作年限、月收入;
(3)家庭情况:家庭人均月收入、家庭债务收入比例;
(4)与银行的业务往来关系:账户、存款金额、业务往来、其他借款情况。
由于实验时间和个人能力所限,经小组讨论后我们在四大主要因素中选取了婚姻、年收入、工作年限、固定资产估值、教育水平、拖欠记录次数六个属性,其中婚姻划分三个等级,年收入、工作年限、固定资产估值、教育水平、拖欠记录次数均划分为四个等级,总共收集300分数据样本。
2.2 数据预处理
初步采集的数据很多是不完整的、有噪声的,所以在获取数据源后,需要进行数据的清洗和转换,使其符合数据挖掘算法的要求,并能够产生最为可靠和准确的结果。
2.2.1 数据清理
先对数据进行整理、对噪声数据进行处理,以增加数据挖掘结果的准确性。
(1)对空值的处理:空值出现的可能性很多,主要是由于数据采集时缺乏样本数据产生。对空值的处理有很多方法,比如:最大频数填充、平均值填充、人工随机填充等。根据本数据样本的具体情况我们决定采用人工随机填充的方法。
(2)对噪声数据的处理:可以采用分箱、聚类、回归等。
本实验采用分箱的方法对噪声数据进行处理。
2.2.2数据变换
在所得的原始信息中绝大部分的字段值都是字符值,为了在数据处理中,占用更小的空间和取得更快的计算速
您可能关注的文档
- 辽宁中医学院-皮肤病学教案解读.doc
- 汽车壳体前处理工艺解读.ppt
- 列宁领导的社会主义革命与建设解读.ppt
- 汽车美容论文解读.doc
- 林草植被恢复工程监理用表解读.doc
- 汽车内外饰件常用材料解读.ppt
- 林黛玉进贾府(精品)解读.ppt
- 汽车企业供应商质量改进16步程序解读.ppt
- 林黛玉进贾府(一等奖课件)解读.ppt
- 汽车事故定损解读.ppt
- 2025年智能快递驿站行业政策与市场机遇报告.docx
- 2025年校园安全防范中新能源电动巡逻车采购可行性分析.docx
- 2025年智能垃圾分类智慧监管平台在智慧旅游区的应用前景研究.docx
- 2025年智能家居报告:人工智能伦理风险的法律责任与用户隐私保护.docx
- 2025年智能垃圾分类与垃圾分类信息化管理结合的可行性研究.docx
- 2025年智慧社区远程医疗诊断中心在基层医疗机构运营管理中的应用报告.docx
- 2025年智慧社区:老年活动广场智能化升级研究.docx
- 2025年智能社区新能源电动巡逻车市场应用前景分析报告.docx
- 2025年智能垃圾分类智慧监管平台在垃圾分类回收与处理中的智能化改造路径.docx
- 2025年本土半导体材料产业链国产化战略布局报告.docx
文档评论(0)