logo

您所在位置网站首页 > 海量文档  > 专业论文 > 计算机论文

【原创】PyTorch机器学习分类预测银行客户流失模型数据分析报告论文(附代码数据).docx 30页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
特别说明: 下载前务必先预览,自己验证一下是不是你要下载的文档。
  • 上传作者 lico9e(上传创作收益人)
  • 发布时间:2019-11-08
  • 需要金币90(10金币=人民币1元)
  • 浏览人气
  • 下载次数
  • 收藏次数
  • 文件大小:112.19 KB
下载过该文档的会员
你可能关注的文档:
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450 有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:/datablog PyTorch机器学习分类预测预测银行客户流失模型数据分析报告 分类问题属于机器学习问题的类别,其中给定一组功能,任务是预测离散值。分类问题的一些常见示例是,预测肿瘤是否为癌症,或者学生是否可能通过考试。 在本文中,鉴于银行客户的某些特征,我们将预测客户在6个月后是否可能离开银行。客户离开组织的现象也称为客户流失。因此,我们的任务是根据各种客户特征预测客户流失。 $ pip install pytorch 数据集 我们将在此 Kaggle链接中免费提供本文中将要使用的数据集。让我们将所需的库和数据集导入到我们的Python应用程序中: import torchimport torch.nn as nnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns %matplotlib inline 我们可以使用库的read_csv()方法pandas来导入包含我们的数据集的CSV文件。 dataset = pd.read_csv(r'E:Datasets\customer_data.csv') 让我们打印数据集 : dataset.shape 输出: (10000, 14) 输出显示该数据集具有1万条记录和14列。 我们可以使用head()pandas数据框的方法来打印数据集的前五行。 dataset.head() 输出: ? 您可以在我们的数据集中看到14列。根据前13列,我们的任务是预测第14列的值,即Exited。? 探索性数据分析 让我们对数据集进行一些探索性数据分析。我们将首先预测6个月后实际离开银行并使用饼图进行可视化的客户比例。 让我们首先增加图形的默认绘图大小: fig_size = plt.rcParams["figure.figsize"] fig_size[0] = 10 fig_size[1] = 8 plt.rcParams["figure.figsize"] = fig_size 以下脚本绘制该Exited列的饼图。 dataset.Exited.value_counts().plot(kind='pie', autopct='%1.0f%%', colors=['skyblue', 'orange'], explode=(0.05, 0.05)) 输出: ? 输出显示,在我们的数据集中,有20%的客户离开了银行。这里1代表客户离开银行的情况,0代表客户没有离开银行的情况。 让我们绘制数据集中所有地理位置的客户数量: sns.countplot(x='Geography', data=dataset) 输出: ? 输出显示,几乎一半的客户来自法国,而西班牙和德国的客户比例分别为25%。 现在,让我们绘制来自每个唯一地理位置的客户数量以及客户流失信息。我们可以使用库中的countplot()函数seaborn来执行此操作。 sns.countplot(x='Exited', hue='Geography', data=dataset) 输出: ?? 输出显示,尽管法国客户总数是西班牙和德国客户总数的两倍,但法国和德国客户离开银行的客户比例是相同的。同样,德国和西班牙客户的总数相同,但是离开银行的德国客户数量是西班牙客户的两倍,这表明德国客户在6个月后离开银行的可能性更大。 数据预处理 在训练PyTorch模型之前,我们需要预处理数据。如果查看数据集,您将看到它具有两种类型的列:数值列和分类列。数字列包含数字信息。CreditScore,Balance,Age等。类似地,Geography和Gender是分类列,因为它们含有分类信息,如客户的位置和性别。有几列可以视为数字列和类别列。例如,该HasCrCard列的值可以为1或0。但是,那HasCrCard列包含有关客户是否拥有信用卡的信息。 但是,这完全取决于数据集的领域知识。 让我们再次输出数据集中的所有列,并找出哪些列可以视为数字列,哪些列应该视为类别列。columns数据框的属性显示所有列名称: dataset.columns 输出: Index(['RowNumber', 'CustomerId', 'Surname', 'CreditSc

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556