- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在保险业中应用研究
数据挖掘技术在保险业中应用研究
摘 要 本文以保险公司为例,通过用数据挖掘方法中改进的ID3算法来实现对客户进行分类,然后再进一步对得出的结果分析,以从中发现企业产品的销售规律和客户群特征,从而使企业可以更好的制定营销策略。最后结合例子对该方法的应用进行了说明。
关键词 数据挖掘;ID3算法;决策树;客户利润贡献度
一、引言
客户作为企业的一种资产,对提高企业竞争力的重要性日益增加。根据帕累托原则,一个公司80%的盈利是由20%的客户创造的。从中可以看出,并非所有的客户对企业都是同等重要的,这就要求企业对客户进行细分,注重那些对企业利润贡献多的客户,即客户利润贡献度高的客户,减少因为盲目投入造成的不必要的浪费[1]。数据挖掘技术符合这一要求。保险公司经过多年发展,已积累了大量宝贵的客户数据资源,如何处理这些海量数据,???好地汇总、分析这些历史数据并从中挖掘出业务内在规律,将其变为有用的信息和商机,将会主导未来相当长时间内各个保险公司的工作战略。
数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts) 、规则(Rules)、规律(Regularities)、模式(Patterns)等形式的过程[2]。根据数据挖掘中使用的数据分类模型的不同,数据分类方法可以分为:使用决策树模型的数据分类、使用神经网络模型的数据分类、使用统计模型的数据分类等。在这些分类方法中,决策树分类由于自身的优点而广被使用,其优点为: 结构简单,便于理解;效率高,对训练集数量大的较为适合;通常不需要受训数据外的知识;具有较高的精确度[3]。
二、数据挖掘在保险公司客户管理中的应用
1.改进的ID3算法
在决策树分类算法中,最有影响力的是Quinlan提出的ID3算法。实质是构造一棵熵值树,采用使信息熵最大的属性作为每个结点的分支选择属性,使得到的决策树深度较小,以提高其分类速度。但是它忽略了决策树的宽度,因此需要在学习过程中自动地构造出新的属性,并嵌入到决策树中,这就是改进的ID3算法的核心问题。
设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci (i=1,2,…,m )。设Si是类Cm中的样本数,一个给定的样本分类所需的期望信息,即系统的总熵由下式给出:
I(S1,S2 ,…,Sm) =-
其中Pi是任意样本属于Cm的概率,并用Si/S估计。
设属性A具有v个不同值{a1,a2,…, av}。可以用属性A将S划分为v个子集{S1,,S2,…,Sv};其中,Sj包含S中这样一些样本,他们在A上具有值aj。如果A选作测试属性,则这些子集对应于由包含集合S的节点生长出来的分枝。设Sij是子集Sj中类Ci的样本数。那么,这时按A的每个属性值进行分割后的信息量,也就是系统总熵或期望信息为:
E(A) = I(S1,S2 ,…,Sm)【4】
充当第j个子集的权,并且等于子集中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的子集Sj,
I(S1j + S2j +…+Smj ) = -【4】
其中,是Sj中的样本属于类Ci的概率。引入一个量:信息增益(Information Gain)表示系统由于分类获得的信息量,由系统熵的减少值定量描述。用属性A划分样本集S后所得的信息增益值为:
Gain(A)= I(S1j + S2j +…+Smj) - E(A)
ID3选择使Gain(A)最大的属性A作为分枝属性,这种方法使生成的决策树平均深度较小,从而有较快的分类速度。但实践证明这个标准易偏向于取值较多的属性,提出了信息增益率的选择方法,信息增益率定义为:
G(A) = Gain(A) / E(A)
随着每个属性值的判断,从决策树中选择例子集,使不确定性相对减少。
2. 数据挖掘在某保险公司车险中的应用
(1)客户信息的收集和规范化处理
从企业客户关系管理部门的数据集中采集客户记录,如:客户信息表和车辆保单信息表。目的是建立以客户利润贡献度为主题的数据集合。客户信息表包括:编号、姓名、年龄、驾龄、性别、职业、学历、收入、电话、地区等。车辆保单信息表包括:编号、保单号、车辆种类、理赔次数、保费、险种、生效日期、投保日期等。
公司利润表有三个属性:客户年龄、客户驾龄、理赔次数。一个类别是企业的利润贡献度,分为两类:高和低。数据汇总一方面是将企业不同部门和不同分销机构的数据进行集成;另一方面是将数据进行钙化处理,即将低层次的原始数据替换为高层次的概念,以便于
文档评论(0)