- 10
- 0
- 约2.04万字
- 约 110页
- 2024-02-26 发布于江苏
- 举报
Spark大数据技术与应用案例教程主讲教师:
目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架
目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据
项目七综合案例——分析银行个人信贷业务数据
第5页本项目利用Spark技术对银行个人信贷业务数据进行预处理和分析,旨在帮助读者熟悉Spark数据处理与分析的基本方法,巩固前面所学知识。
第6页熟悉Spark数据处理与分析的基本方法
第7页能使用RDD的不同操作处理数据。能将RDD转换为DataFrame。能使用DataFrame的不同操作分析数据。能将DataFrame保存为不同类型的文件。能使用SparkMLlib提供的算法解决实际问题。能使用DStream的不同操作分析数据。
第8页综合应用所学知识,提升归纳总结能力和实践能力。
任务一预处理银行个人信贷业务数据任务二多角度分析银行个人信贷业务的逾期还款情况任务三实时统计逾期还款的用户数量任务四预测银行贷款用户是否存在逾期还款的风险
任务一预处理银行个人信贷业务数据
第11页由于原数据集中存在字段名称过长、字段排列无条理、数据行重复和数据行中含有空值(即NA)等问题,因此本任务使用SparkSQL对原始数据集进行预处理,以便在后续的分析、建模或其他数据处理任务中使用。
第12页任务分析银行个人信贷业务数据保存在“/usr/local/spark/mycode/CreditCard/cs-training.csv”文件中。该数据集包含12个字段,第一个字段为索引字段且字段名称为空。本任务:首先读取“cs-training.csv”文件中的数据创建DataFrame;然后使用DataFrame提供的方法修改原数据集的字段名称和字段顺序,并删除重复的数据行和含有空值的数据行;最后将预处理后的数据保存至新的文件中,生成新的数据集。
第13页预处理前后数据集中各字段的说明如表所示。原数据集中的字段名称新数据集中的字段名称说明—Index索引列ageage年龄MonthlyIncomeMonthlyIncome月收入NumberOfDependentsfamily家庭成员的数量SeriousDlqin2yrs2yrs是否逾期还款。取值1代表逾期还款;0代表未逾期还款NumberOfTime30-59DaysPastDueNotWorseTime30-59逾期30~59天还款的次数
第14页预处理前后数据集中各字段的说明如表所示。原数据集中的字段名称新数据集中的字段名称说明NumberOfTime60-89DaysPastDueNotWorseTime60-89逾期60~89天还款的次数NumberOfTimes90DaysLateTimes90逾期90天以上还款的次数RevolvingUtilizationOfUnsecuredLinesUnsecuredLines担保额度循环利用率DebtRatioDebtRatio负债比率NumberOfOpenCreditLinesAndLoansOpenCredit开放信用额度和贷款数量NumberRealEstateLoansOrLinesRealEstate房地产贷款数量或信用额度数量
第15页打开PyCharm,新建“CreditCard”目录,在该目录下新建“preprocessing.py”文件,然后在该文件中编写应用程序,实现银行个人信贷业务数据的预处理。
第16页使用read.csv()方法读取“cs-training.csv”文件中的数据创建DataFrame(即df)。步骤1创建SparkSession对象。步骤2步骤3使用read.csv()方法读取“cs-training.csv”文件中的数据创建DataFrame(即df)。重命名df中字段的名称,得到一个新的DataFrame(即df_name)。首先定义一个包含列名的列表column_names;然后使用toDF()方法将df的列名设置为列表column_names中指定的值。
第17页删除重复的数据行,得到一个新的DataFrame(即df_drop)。使用dropDuplicates()方法删除df_select中重复的数据行。步骤4在调换df_name中字段的顺序,得到一个新的DataFrame(即df_select)。使用select()方法按
您可能关注的文档
- windows 10案例教程 项目四 配置与管理用户账户.pptx
- windows 10案例教程 项目五 管理文件和文件夹.pptx
- windows 10案例教程 项目一 初识Windows 10.pptx
- 《大学语文》第八章 事务文书.pptx
- 《大学语文》第二章 立志敬业.pptx
- 《大学语文》第九章 公务文书.pptx
- 《大学语文》第七章 日常应用文.pptx
- 《大学语文》第三章 敦品励行.pptx
- 《大学语文》第十章 经济文书.pptx
- 《大学语文》第四章 人文情怀.pptx
- 统编版2025年春季新版七年级下册历史 第21课 明清时期的科技与文化 教案.docx
- 雅安雨城法院书记员招聘考试真题库2025.docx
- 2026届安徽合肥市高考一模高考语文试卷试题(含答案详解).pdf
- 【专题研究】国内外城市更新研究的最新进展.pdf
- 【专题研究】老旧城区改造居民满意度影响因素研究——以遂宁市老旧城区改造为例.pdf
- 【专题研究】关于旧城空间改造理论与创意设计案例的几点思考.pdf
- 西藏拉萨市高三下学期期末物理备考重点详解.docx
- 泾县法院书记员招聘笔试真题2025.pdf
- 2026年春【苏教版】-六年级数学下册-面积的变化.pptx
- 2026年春【苏教版】-六年级数学下册-7.pptx
最近下载
- 英语分级阅读:国家地理《Reading Explorer》A1-A2入门级 REF_unit 1A.pdf VIP
- 社区社会工作教学课件 周沛 易艳阳-第1章 社区概述.pptx VIP
- 急性胰腺炎急诊诊治专家共识(2024).pptx VIP
- 2025年AWS认证SavingsPlans在游戏行业中的应用案例专题试卷及解析.pdf VIP
- FDS火灾模拟软件使用教程.pptx VIP
- 2022版《小学数学新课程标准》的解读与梳理PPT课件.pptx VIP
- 制作一:布绒玩具制作.ppt VIP
- 胃潴留的护理.ppt
- 2026广东省佛山市南海公证处公开招聘公证员助理2人笔试参考题库及答案解析.docx VIP
- 解剖关节学课件.ppt VIP
原创力文档

文档评论(0)