【原创】Python用PyTorch机器学习分类预测银行客户流失模型数据分析报告论文（附代码数据） .docx

下载文档 降价啦

64
0
约1.4万字
约 30页
2019-11-08 发布于浙江
举报
版权申诉
保障服务

【原创】Python用PyTorch机器学习分类预测银行客户流失模型数据分析报告论文（附代码数据） .docx

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务（附代码数据）, 咨询QQ：3025393450 有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：/datablog Python用PyTorch机器学习分类预测银行客户流失模型数据分析报告分类问题属于机器学习问题的类别，其中给定一组功能，任务是预测离散值。分类问题的一些常见示例是，预测肿瘤是否为癌症，或者学生是否可能通过考试。在本文中，鉴于银行客户的某些特征，我们将预测客户在6个月后是否可能离开银行。客户离开组织的现象也称为客户流失。因此，我们的任务是根据各种客户特征预测客户流失。 $ pip install pytorch 数据集我们将在此 Kaggle链接中免费提供本文中将要使用的数据集。让我们将所需的库和数据集导入到我们的Python应用程序中： import torchimport torch.nn as nnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns %matplotlib inline 我们可以使用库的read_csv()方法pandas来导入包含我们的数据集的CSV文件。 dataset = pd.read_csv(r'E:Datasets\customer_data.csv') 让我们打印数据集： dataset.shape 输出： (10000, 14) 输出显示该数据集具有1万条记录和14列。我们可以使用head()pandas数据框的方法来打印数据集的前五行。 dataset.head() 输出： ? 您可以在我们的数据集中看到14列。根据前13列，我们的任务是预测第14列的值，即Exited。? 探索性数据分析让我们对数据集进行一些探索性数据分析。我们将首先预测6个月后实际离开银行并使用饼图进行可视化的客户比例。让我们首先增加图形的默认绘图大小： fig_size = plt.rcParams["figure.figsize"] fig_size[0] = 10 fig_size[1] = 8 plt.rcParams["figure.figsize"] = fig_size 以下脚本绘制该Exited列的饼图。 dataset.Exited.value_counts().plot(kind='pie', autopct='%1.0f%%', colors=['skyblue', 'orange'], explode=(0.05, 0.05)) 输出： ? 输出显示，在我们的数据集中，有20％的客户离开了银行。这里1代表客户离开银行的情况，0代表客户没有离开银行的情况。让我们绘制数据集中所有地理位置的客户数量： sns.countplot(x='Geography', data=dataset) 输出： ? 输出显示，几乎一半的客户来自法国，而西班牙和德国的客户比例分别为25％。现在，让我们绘制来自每个唯一地理位置的客户数量以及客户流失信息。我们可以使用库中的countplot()函数seaborn来执行此操作。 sns.countplot(x='Exited', hue='Geography', data=dataset) 输出： ?? 输出显示，尽管法国客户总数是西班牙和德国客户总数的两倍，但法国和德国客户离开银行的客户比例是相同的。同样，德国和西班牙客户的总数相同，但是离开银行的德国客户数量是西班牙客户的两倍，这表明德国客户在6个月后离开银行的可能性更大。数据预处理在训练PyTorch模型之前，我们需要预处理数据。如果查看数据集，您将看到它具有两种类型的列：数值列和分类列。数字列包含数字信息。CreditScore，Balance，Age等。类似地，Geography和Gender是分类列，因为它们含有分类信息，如客户的位置和性别。有几列可以视为数字列和类别列。例如，该HasCrCard列的值可以为1或0。但是，那HasCrCard列包含有关客户是否拥有信用卡的信息。但是，这完全取决于数据集的领域知识。让我们再次输出数据集中的所有列，并找出哪些列可以视为数字列，哪些列应该视为类别列。columns数据框的属性显示所有列名称： dataset.columns 输出： Index(['RowNumber', 'CustomerId', 'Surname', 'Cre