【原创】Python用PyTorch机器学习分类预测银行客户流失模型数据分析报告论文(附代码数据) .docx

【原创】Python用PyTorch机器学习分类预测银行客户流失模型数据分析报告论文(附代码数据) .docx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450 有问题到百度搜索“大数据部落”就可以了 欢迎登陆官网:/datablog Python用PyTorch机器学习分类预测银行客户流失模型数据分析报告 分类问题属于机器学习问题的类别,其中给定一组功能,任务是预测离散值。分类问题的一些常见示例是,预测肿瘤是否为癌症,或者学生是否可能通过考试。 在本文中,鉴于银行客户的某些特征,我们将预测客户在6个月后是否可能离开银行。客户离开组织的现象也称为客户流失。因此,我们的任务是根据各种客户特征预测客户流失。 $ pip install pytorch 数据集 我们将在此 Kaggle链接中免费提供本文中将要使用的数据集。让我们将所需的库和数据集导入到我们的Python应用程序中: import torchimport torch.nn as nnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns %matplotlib inline 我们可以使用库的read_csv()方法pandas来导入包含我们的数据集的CSV文件。 dataset = pd.read_csv(r'E:Datasets\customer_data.csv') 让我们打印数据集 : dataset.shape 输出: (10000, 14) 输出显示该数据集具有1万条记录和14列。 我们可以使用head()pandas数据框的方法来打印数据集的前五行。 dataset.head() 输出: ? 您可以在我们的数据集中看到14列。根据前13列,我们的任务是预测第14列的值,即Exited。? 探索性数据分析 让我们对数据集进行一些探索性数据分析。我们将首先预测6个月后实际离开银行并使用饼图进行可视化的客户比例。 让我们首先增加图形的默认绘图大小: fig_size = plt.rcParams["figure.figsize"] fig_size[0] = 10 fig_size[1] = 8 plt.rcParams["figure.figsize"] = fig_size 以下脚本绘制该Exited列的饼图。 dataset.Exited.value_counts().plot(kind='pie', autopct='%1.0f%%', colors=['skyblue', 'orange'], explode=(0.05, 0.05)) 输出: ? 输出显示,在我们的数据集中,有20%的客户离开了银行。这里1代表客户离开银行的情况,0代表客户没有离开银行的情况。 让我们绘制数据集中所有地理位置的客户数量: sns.countplot(x='Geography', data=dataset) 输出: ? 输出显示,几乎一半的客户来自法国,而西班牙和德国的客户比例分别为25%。 现在,让我们绘制来自每个唯一地理位置的客户数量以及客户流失信息。我们可以使用库中的countplot()函数seaborn来执行此操作。 sns.countplot(x='Exited', hue='Geography', data=dataset) 输出: ?? 输出显示,尽管法国客户总数是西班牙和德国客户总数的两倍,但法国和德国客户离开银行的客户比例是相同的。同样,德国和西班牙客户的总数相同,但是离开银行的德国客户数量是西班牙客户的两倍,这表明德国客户在6个月后离开银行的可能性更大。 数据预处理 在训练PyTorch模型之前,我们需要预处理数据。如果查看数据集,您将看到它具有两种类型的列:数值列和分类列。数字列包含数字信息。CreditScore,Balance,Age等。类似地,Geography和Gender是分类列,因为它们含有分类信息,如客户的位置和性别。有几列可以视为数字列和类别列。例如,该HasCrCard列的值可以为1或0。但是,那HasCrCard列包含有关客户是否拥有信用卡的信息。 但是,这完全取决于数据集的领域知识。 让我们再次输出数据集中的所有列,并找出哪些列可以视为数字列,哪些列应该视为类别列。columns数据框的属性显示所有列名称: dataset.columns 输出: Index(['RowNumber', 'CustomerId', 'Surname', 'Cre

文档评论(0)

lico9e + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档