我国居民保险购买行为的决策树模型分析.docxVIP

我国居民保险购买行为的决策树模型分析.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

我国居民保险购买行为的决策树模型分析

?

?

王姗姗

摘要:近几年许多行业都步入大数据时代,但数据挖掘技术在我国保险领域的应用相对不多,并且我国保险公司也要考虑通过改变传统的经营方法来提升业绩,因此加大对数据的利用力度,过渡到数字化营销模式对保险公司来说十分关键。主要研究决策树算法在保险公司客户识别方面的应用,根据加入误分代价的决策树模型建立的分类规则,找出了影响我国居民是否购买保险产品的主要因素。

关键词:决策树;误分代价;基尼指数

:F23:Adoi:10.19311/j.cnki.1672-3198.2019.35.059

1数据处理

选取2015年中国综合社会调查数据,根据相关研究选取其中的性别、年龄、个人年收入、是否拥有城市/农村基本医疗保险情况这四个影响因素。性别是名义变量,给男性赋值1,女性赋值2。将年龄以及个人年收入进行分段划分,并且对这两个影响因素数据进行离散化处理。

初始数据共有10968条,对其进行精简,只保留明确回答是否购买了商业医疗保险的数据,即购买了或是未购买的,凡是回答“无法回答、拒绝回答、不知道、不适用”的都不适用于本文的研究,故直接将其舍去,处理后的数据为10747条。对于其中个人年收入的缺失值对其进行同类插补将其补齐。最后得到的数据中购买商业医疗保险的居民有950个,未购买商业医疗保险的居民有9797个。

2决策树分析

2.1样本不平衡处理

由于本文中购买商业医疗保险的居民有950个,未购买商业医疗保险的居民有9797个,样本存在严重的不平衡性,因此我们在建模时要对购买了商业医疗保险的样本增加误分代价。

2.2模型建立

决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节点表示树选择哪几个变量(属性)作为划分,每棵树的叶节点表示为一个类的标号,树的最顶层为根节点。本文用CART决策树(回归树)对居民是否购买医疗保险进行分类,该算法是一个二叉树,即每一个非叶节点只能引申出两个分支,因此十分适合用于本文的研究。将处理过后的10747条样本划分为训练集和验证集,随机抽取80%为训练集,剩下的20%为验证集。

决策树算法中包含最核心的两个问题,即特征选择和剪枝,关于特征选择目前比较流行的方法是信息增益、增益率、基尼系数和卡方检验。CART算法的特征选择就是基于基尼系数得以实现的,其选择的标准就是每个子节点达到最高的纯度,即落在子节点中的所有观察都属于同一个分类。

依次计算出各个属性的基尼指数,并比较各属性基尼指数的大小得到个人年收入的基尼指数最大,从而确定个人年收入为第一个划分属性。个人年收入基尼指数计算步骤如下:

首先在对样本划分前,总的训练数据共有2类,即N=2,其中参与商业保险的居民共有760,未参与商业保险的居民共7878,D=7118。

首先利用个人年收入进行划分,此属性共有7个值,K=7,即a1=1,a2=2,a3=3,a4P=4,a5=5,a6=6,a7=7,数据集划分成1个集合,即D1,D2,D3,D4,D5,D6,D7。

其中Dk表示包含個人年收入为编码取k的样本,Dk表示总共有多少个样本位于此区间,其中购买了医疗保险的有X人,Py=1=P1=XDk表示a=k时购买了商业医疗保险的人数占样本总体的比例,Py=-1=P2=Dk-XDk表示未购买医疗保险的比例。

购买商业医疗保险的样本量比未购买商业保险的样本量少很多,因此使用加入误分代价的CART决策树模型,根据样本中购买了医疗保险和未购买医疗保险的人数比例进行设置误分代价如表5。

进行建模得到的决策树风险如表6。

从上表可以看出分类的标准误差很低,说明分类的效果比较理想,得到简单树形图为图1。

2.3模型结果解释

建模得到的特征重要性如表7所示。

可以看到影响到我国居民是否购买商业医疗保险的因素由重要性的从高到低依次为您个人去年全年的总收入、是否参加基本医疗保险、年龄、性别。从这点我们可以看出,收入是一个人是否会购买商业医疗保险的首要决定因素,当收入达到一个较高水平时居民会选择购买商业医疗保险,例如在本文的模型中可以看到收入高于9万元时居民会购买商业医疗保险,这说明我国居民在家庭较为富裕的情况下才会考虑为自己购买医疗保险增加保障。

对于保险公司来说,需要在营销时着重了解潜在客户的收入情况,将收入较高的潜在客户作为首要推销目标,降低营销成本。

参考文献

[1]王星,谢邦昌,戴稳胜.数据挖掘在保险业中的应用[J].数据,2004,24(4):50-51.

[2]王书爽.基于后修正贝叶斯决策树模型的保险企业营销决策[J].统计与决策,2013,14(3):180-182.

[3]ZhangY,Chi在X,XieFD,LiN.Aweights-based

文档评论(0)

180****0576 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档