- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
......
1(50.0分)
某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的基本信
息,经济情况,以及是否拖欠还款等,详细如附表所示(已经将客户分为了训练集和测试
集)。
MicrosoftOffice
Excel2007工作表
数据剖析应用1训练数据.xlsx
数据剖析应用1测试
数据
数据剖析应用1测试数据.xlsx
进行数据预办理,并用不同的算法模型(逻辑回归、神经网络等)剖析信用卡拖欠还款情
况,联合测试数据对照模型的拟合优度,要求写出详细的思经过程。
答案:
1、由题意,能够确定此题中年纪、教育水平、目前工作年限、目前居住年限、家庭收入、
债务占收入比率、信用卡负债、其他负债等为自变量,还款拖欠情况为因变量。
2、对数据进行预办理:
本案例数据均为数值型,切合模型建设要求;
本案例数据不存在缺失值,故此项不用办理;
经过datahoop平台箱形图可知,家庭年收入一项异样值较多,可是联合实际情况认为可
能是有特殊人群存在,故此处不做办理。
察看训练集数据可知,本案例样本平衡,能够进行模型建设。
下边分别用逻辑回归、神经网络、SVM进行模型测试。
3、(1)逻辑回归:
首先进行变量的有关性检查,将训练集导入平台,经过datahoop平台有关系数矩阵剖析
.专业.专注.
......
得出如下有关系数矩阵
由有关系数矩阵得悉变量之间虽有有关性但有关性不高,能够直接进行逻辑回归剖析.
翻开datahoop平台预测剖析,将训练数据放入训练表,测试数据放入测试表,选择相应
的自变量和因变量,选择逻辑回归。结果如下:
由模型训练结果可知Accuracy,AUC值,正确率召回率F1值都比较高,模型拟合效果较好,
训练误差不大。
将模型预测结果中的预测数据和测试集中的实际数据对照,获得混杂矩阵并计算出相应的
正确率和召回率如下:
.专业.专注.
......
由混杂矩阵计算得出的正确率和召回率都比较高,模型泛化误差不大,模型整体预测效果
较好。
(2)神经网络:
详细描绘同逻辑回归,模型训练结果如下:
将测试结果和测试集中的实际分类对照,获得的混杂矩阵及正确率、召回率、预测率,F1
值结果如下:
由训练结果能够看到Accuracy、AUC、正确率召回率等都较大,模型拟合效果较好,训练
误差不大;
由测试结果可知Accuracy、AUC、正确率召回率等都较大,模型测试效果较好,泛化误差
不大。
3)SVM:
导入datehoop平台获得如下训练结果:
.专业.专注.
......
将测试结果和测试集中的实际分类对照,获得混杂矩阵如下:
SVM模型训练结果可知Accuracy、AUC值均较高,正确率和召回率都较大,模型拟合效果
较好,训练误差不大;
由预测结果和测试集中的实际结果对照,模型ACCURACY值不高,预测为1召回率和F1
值较小,模型预测效果不好,泛化误差较大。
4、经过对照以上3种分类模型的比较,逻辑回归整体精准度最高,SVM模型最差,在此
案例中,我们更关注客户是不是会拖欠贷款这一点,即我们更关注分类结果为欠款(即为
1)的召回率的大小,对照三个模型可知,神经网络这一模型1的召回率最大,因此三个模
型中神经网络的预测效果最好。
.专业.专注.
......
2(50.0分)
为了研究手机好评率与品牌、价钱的关系,某企业收集如附表所示数据,数据收集的信息
包含手机的评论得分和评论内容以及手机品牌和价钱等信息。
手机数据
手机数据.xlsx
对数据进行预办理,选择合适的模型剖析手机好评率与品牌、价钱的关系,要求写出详尽
的思路和过程。
.专业.专注.
......
答案:
1、首先对数据进行预办理:
察看数据可知不存在缺失值,故此项不用办理。
因为手机品牌中存在非数值型数据,因此敌手机品牌数据进行数值化,编码如下:
品牌
360
21KE
HTC
LG
OPPO
vivo
ZUK
锤子(smartisan)
飞利浦(PHILIPS)
华为(HUAWEI)
金立(Gionee)
酷派(Coolpad)
手机价钱属于连续型变量
价钱编号
编号
1
2
3
4
5
6
7
8
9
10
11
12
,因此需要离散化,离散结果如下:
500-1000onej
1000-1500twoj
.专业.专注.
......
1500-2000threej
2000-2500fourj
2500-3000fivej
3000-3500sixj
3500-4000sevenj
5000-6000eightj
6000以上ninej
由题意可知剖析手机好评率同价钱和品牌、价钱等的关系,因此根据已知数据建立新的变
量好评率(好评率=好评数/总评论数*100%),计算出的好评率仍旧是连续型数据,进行
离散化办理如下:
好
文档评论(0)