数据科学与工程行业案例教程 习题及答案 第4-5章课后习题答案.docx

数据科学与工程行业案例教程 习题及答案 第4-5章课后习题答案.docx

第4章金融大数据风险控制应用案例

1.简要说明对信贷数据进行初步探索的主要方法和目的。

主要方法:

描述性统计分析:计算均值、中位数、标准差、分位数等,了解变量的集中趋势和离散程度。

数据分布分析:通过直方图、箱线图等方式观察变量分布及异常值情况。

相关性分析:利用相关系数或相关矩阵分析变量之间的关系。

缺失值与异常值检查:统计缺失比例,识别明显不合理的数据。

主要目的:

全面了解信贷数据的基本特征和质量状况;

发现潜在问题(如异常值、数据偏态、缺失严重变量);

为后续数据清洗、特征工程和模型构建提供依据。

2.数据清洗在风控数据处理中扮演什么角色?请举例说明常见的清洗操作。

角色:

数据清

文档评论(0)

1亿VIP精品文档

相关文档