数据挖掘-基于R语言的实战.pptx

下载文档

2
0
约7.32万字
约 521页
2024-08-04 发布于安徽
举报
版权申诉
保障服务

数据挖掘-基于R语言的实战.pptx

1、本文档共521页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘-基于R语言的实战;

数据挖掘的定义及基本流程

关于数据挖掘项目的3个基本问题

建模数据集对预测数据集的代表性

自变量和因变量之间关系的因果性解释模型预测精度对于实际应用的价值

CRISP-DM数据挖掘方法论

SEMMA数据挖掘方法论

R语言简介;

数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规则的过程o(BerryandLinof,2000)

“有意义”针对的是具体需要用数据分析来回答和解决的问题o;

、无监督数据挖掘:对各个变量不区别对待,而是考查它们之间的关系。

、描述和可视化

、关联规则分析

、主成分分析、聚类分析等

、有监督数据挖掘:建立根据一些变量来预测另一些变量的模型,前者被称为自变量,后者被称为因变量。

、线性及广义线性回归

、神经网络

、决策树

、随机森林等;

数据挖掘的基本流程;

在给企业贷款时,银行不可避免地面临着信用风险,即借款企业不按时归还贷款本息的风险。

如果能够很好地预测信用风险,银行能够根据信用风险的大小:、基于自身的风险偏好选择客户群体

、为不同的客户提供不同的贷款产品或不同的贷款利率

企业贷款违约概率是刻画信用风险的重要指标。;;

、因变量:企业贷款是否违约。

、自变量包含能帮助预测因变量的各种信息。

、企业年龄

、企业类型

、企业大小

、企业所在地区

、企业所处行业

、反映企业财务状况的财务报表等;

、银行需要根据对自身贷款业务的理解,决定收集哪些自变量。

、只有对贷款业务理解得透彻,才能有效地定义能帮助预测因变量的自变量。

、每个变量都需要对所有企业有明晰且一致的定义,并能转换为可量化的数据。

、例如,对于企业所处行业这一变量,需要明确是根据国家标准化管理委员会等机构发布的《国民经济行业分类》还是根据证监会发布的《上市公司行业分类指引》来划分的。;

、在实际应用中,决定是否收集一个变量,需要考虑该变量的长期可获得性以及获得成本。

、例如,“企业所处行业的行业景气指数”可以从万德数据库中获得,但万德数据库通常都需要购买,而且万德数据库是需???每年付费的,这牵涉购买成本。为了保持数据的一致

性,银行不能一年购买一年不购买,而需要考虑能否保证长期购买。;

、数据中存在的自相矛盾和错误会导致任何建模努力付诸东

流,因此通常需要对所收集的数据进行大量的数据清理,尽一切努力保证数据的准确性。

、此外,通常需要根据原始数据进行计算或者转换,从而得到放入模型的一些变量。

、这些数据准备工作需要自动过程与手动过程的有机结合。;

、根据含有自变量和因变量的值的历史数据,可以建立根据自变量预测企业贷款违约概率的模型。

、在此基础上,还可以根据预测的违约概率将企业归入各个风险类别,每一个风险类别与一定范围的违约概率相联系。

、通常我们都会建立多个统计模型以便从中选择最合适的模型。;

我们需要评估并比较多个模型的预测精度。对信用风险模型最重要的评估是通过对比模型预测结果和企业实际违约情况来实现

的。

、查验模型预测为低风险的企业中是否实际违约率更低、查验模型预测为高风险的企业中是否实际违约率更高;

模型选择:

、一般来说,我们可以选择预测精度最高的模型。

、但在实际应用场景中,有时使用模型的用户很看重模型的可解释性。

、这时,可能一个模型虽然预测精度很高但不好解释,用户会选择另一个预测精度相对较低但是好解释的模型。;

随着时间的推移,由于银行内部营运环境、行业环境等因素发生变化,模型评估时可能发现现有信用风险模型的性能逐步下降,所以还需要及时对模型进行更新。

、可以将新的企业的数据加入建模数据集,同时将时间过久的数据从建模数据集中去除,根据新的建模数据集更新模型。

、有时,我们还希望根据对贷款业务的最新理解调整需要收集的自变量。为保证数据的一致性,需要保证新引入的自变量不仅在未来能收集到,对于历史数据也能收集到。;

、在数据挖掘项目中,我们往往需要将数据整理为图中的标准形式。其中,X1至Xp为自变量,Y为因变量。

、建模数据集含有自变量和因变量的值,用于建立并评估统计模型。

、预测数据集只含有自变量的值,不含因变量的值,所以需要将统计模型应用于预测数据集,以预测因变量的值。;

、建模数据集能代表预测数据集吗?

、自变量和因变量之间的关系有因果性的解释吗?、模型预测精度对于实际应用的价值如何?;

、在一些数据挖掘的应用场景下,建模数据集和预测数据集的来源一样。

、例如都是来自某个组织内部的数据集,建模数据

您可能关注的文档

文档评论（0）

139****1983 + 关注: 实名认证

内容提供者

副教授、一级建造师持证人

一线教师。

咨询Ta 进入空间

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

更多 >

数据挖掘-基于R语言的实战.pptx