《Spark大数据技术与应用案例教程》 项目七:综合案例——分析银行个人信贷业务数据.pptxVIP

  • 10
  • 0
  • 约2.04万字
  • 约 110页
  • 2024-02-26 发布于江苏
  • 举报

《Spark大数据技术与应用案例教程》 项目七:综合案例——分析银行个人信贷业务数据.pptx

Spark大数据技术与应用案例教程主讲教师:

目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架

目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据

项目七综合案例——分析银行个人信贷业务数据

第5页本项目利用Spark技术对银行个人信贷业务数据进行预处理和分析,旨在帮助读者熟悉Spark数据处理与分析的基本方法,巩固前面所学知识。

第6页熟悉Spark数据处理与分析的基本方法

第7页能使用RDD的不同操作处理数据。能将RDD转换为DataFrame。能使用DataFrame的不同操作分析数据。能将DataFrame保存为不同类型的文件。能使用SparkMLlib提供的算法解决实际问题。能使用DStream的不同操作分析数据。

第8页综合应用所学知识,提升归纳总结能力和实践能力。

任务一预处理银行个人信贷业务数据任务二多角度分析银行个人信贷业务的逾期还款情况任务三实时统计逾期还款的用户数量任务四预测银行贷款用户是否存在逾期还款的风险

任务一预处理银行个人信贷业务数据

第11页由于原数据集中存在字段名称过长、字段排列无条理、数据行重复和数据行中含有空值(即NA)等问题,因此本任务使用SparkSQL对原始数据集进行预处理,以便在后续的分析、建模或其他数据处理任务中使用。

第12页任务分析银行个人信贷业务数据保存在“/usr/local/spark/mycode/CreditCard/cs-training.csv”文件中。该数据集包含12个字段,第一个字段为索引字段且字段名称为空。本任务:首先读取“cs-training.csv”文件中的数据创建DataFrame;然后使用DataFrame提供的方法修改原数据集的字段名称和字段顺序,并删除重复的数据行和含有空值的数据行;最后将预处理后的数据保存至新的文件中,生成新的数据集。

第13页预处理前后数据集中各字段的说明如表所示。原数据集中的字段名称新数据集中的字段名称说明—Index索引列ageage年龄MonthlyIncomeMonthlyIncome月收入NumberOfDependentsfamily家庭成员的数量SeriousDlqin2yrs2yrs是否逾期还款。取值1代表逾期还款;0代表未逾期还款NumberOfTime30-59DaysPastDueNotWorseTime30-59逾期30~59天还款的次数

第14页预处理前后数据集中各字段的说明如表所示。原数据集中的字段名称新数据集中的字段名称说明NumberOfTime60-89DaysPastDueNotWorseTime60-89逾期60~89天还款的次数NumberOfTimes90DaysLateTimes90逾期90天以上还款的次数RevolvingUtilizationOfUnsecuredLinesUnsecuredLines担保额度循环利用率DebtRatioDebtRatio负债比率NumberOfOpenCreditLinesAndLoansOpenCredit开放信用额度和贷款数量NumberRealEstateLoansOrLinesRealEstate房地产贷款数量或信用额度数量

第15页打开PyCharm,新建“CreditCard”目录,在该目录下新建“preprocessing.py”文件,然后在该文件中编写应用程序,实现银行个人信贷业务数据的预处理。

第16页使用read.csv()方法读取“cs-training.csv”文件中的数据创建DataFrame(即df)。步骤1创建SparkSession对象。步骤2步骤3使用read.csv()方法读取“cs-training.csv”文件中的数据创建DataFrame(即df)。重命名df中字段的名称,得到一个新的DataFrame(即df_name)。首先定义一个包含列名的列表column_names;然后使用toDF()方法将df的列名设置为列表column_names中指定的值。

第17页删除重复的数据行,得到一个新的DataFrame(即df_drop)。使用dropDuplicates()方法删除df_select中重复的数据行。步骤4在调换df_name中字段的顺序,得到一个新的DataFrame(即df_select)。使用select()方法按

文档评论(0)

1亿VIP精品文档

相关文档