数据挖掘技术在保险业中应用研究.docVIP

下载本文档

1
0
约4.99千字
约 11页
2018-05-25 发布于福建
举报
版权申诉

数据挖掘技术在保险业中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术在保险业中应用研究

数据挖掘技术在保险业中应用研究　　摘要本文以保险公司为例，通过用数据挖掘方法中改进的ID3算法来实现对客户进行分类，然后再进一步对得出的结果分析，以从中发现企业产品的销售规律和客户群特征，从而使企业可以更好的制定营销策略。最后结合例子对该方法的应用进行了说明。　　关键词数据挖掘；ID3算法；决策树；客户利润贡献度　　　　一、引言　　　　客户作为企业的一种资产，对提高企业竞争力的重要性日益增加。根据帕累托原则，一个公司80%的盈利是由20%的客户创造的。从中可以看出，并非所有的客户对企业都是同等重要的，这就要求企业对客户进行细分，注重那些对企业利润贡献多的客户，即客户利润贡献度高的客户，减少因为盲目投入造成的不必要的浪费[1]。数据挖掘技术符合这一要求。保险公司经过多年发展，已积累了大量宝贵的客户数据资源，如何处理这些海量数据，???好地汇总、分析这些历史数据并从中挖掘出业务内在规律，将其变为有用的信息和商机，将会主导未来相当长时间内各个保险公司的工作战略。　　数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、潜在有用的信息，提取的知识表示为概念(Concepts) 、规则(Rules)、规律(Regularities)、模式(Patterns)等形式的过程[2]。根据数据挖掘中使用的数据分类模型的不同，数据分类方法可以分为:使用决策树模型的数据分类、使用神经网络模型的数据分类、使用统计模型的数据分类等。在这些分类方法中，决策树分类由于自身的优点而广被使用，其优点为: 结构简单，便于理解；效率高，对训练集数量大的较为适合；通常不需要受训数据外的知识；具有较高的精确度[3]。　　　　二、数据挖掘在保险公司客户管理中的应用　　　　1．改进的ID3算法　　在决策树分类算法中，最有影响力的是Quinlan提出的ID3算法。实质是构造一棵熵值树，采用使信息熵最大的属性作为每个结点的分支选择属性，使得到的决策树深度较小，以提高其分类速度。但是它忽略了决策树的宽度，因此需要在学习过程中自动地构造出新的属性，并嵌入到决策树中，这就是改进的ID3算法的核心问题。　　设S是s个数据样本的集合。假定类标号属性具有m个不同值，定义m个不同类Ci (i=1，2，…，m )。设Si是类Cm中的样本数，一个给定的样本分类所需的期望信息，即系统的总熵由下式给出：　　 I(S1，S2 ，…，Sm) =- 　　其中Pi是任意样本属于Cm的概率，并用Si/S估计。　　设属性A具有v个不同值{a1，a2，…， av}。可以用属性A将S划分为v个子集{S1，，S2，…，Sv}；其中，Sj包含S中这样一些样本，他们在A上具有值aj。如果A选作测试属性，则这些子集对应于由包含集合S的节点生长出来的分枝。设Sij是子集Sj中类Ci的样本数。那么，这时按A的每个属性值进行分割后的信息量，也就是系统总熵或期望信息为：　　 E(A) = I(S1，S2 ，…，Sm)【4】　　　　充当第j个子集的权，并且等于子集中的样本个数除以S中的样本总数。熵值越小，子集划分的纯度越高。注意，对于给定的子集Sj，　　I(S1j + S2j +…+Smj ) = -【4】　　其中，是Sj中的样本属于类Ci的概率。引入一个量：信息增益(Information Gain)表示系统由于分类获得的信息量，由系统熵的减少值定量描述。用属性A划分样本集S后所得的信息增益值为：　　 Gain(A)= I(S1j + S2j +…+Smj) - E(A) 　　ID3选择使Gain(A)最大的属性A作为分枝属性，这种方法使生成的决策树平均深度较小，从而有较快的分类速度。但实践证明这个标准易偏向于取值较多的属性，提出了信息增益率的选择方法，信息增益率定义为: 　　G(A) = Gain(A) / E(A) 　　随着每个属性值的判断，从决策树中选择例子集，使不确定性相对减少。　　2. 数据挖掘在某保险公司车险中的应用　　（1）客户信息的收集和规范化处理　　从企业客户关系管理部门的数据集中采集客户记录，如：客户信息表和车辆保单信息表。目的是建立以客户利润贡献度为主题的数据集合。客户信息表包括：编号、姓名、年龄、驾龄、性别、职业、学历、收入、电话、地区等。车辆保单信息表包括：编号、保单号、车辆种类、理赔次数、保费、险种、生效日期、投保日期等。　　公司利润表有三个属性：客户年龄、客户驾龄、理赔次数。一个类别是企业的利润贡献度，分为两类：高和低。数据汇总一方面是将企业不同部门和不同分销机构的数据进行集成；另一方面是将数据进行钙化处理，即将低层次的原始数据替换为高层次的概念，以便于