- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树分类算法汽车保险理赔案件分析研究
基于决策树分类算法汽车保险理赔案件分析研究
[摘 要]随着汽车的普及,车险成为了我们日常生活中不可或缺的一部分。利用Hadoop完全分布式平台和数据挖掘中的决策树分类算法对汽车保险理赔案件进行分析研究,为保险公司减少损失提高盈利做出了贡献,并对国内外关于汽车理赔的研究进行简要阐述[1]。
[关键词]决策树算法,保险理赔,数据挖掘,Hadooop
中图分类号:TU686 文献标识码:A 文章编号:1009-914X(2018)14-0306-01
0 引言
随着科技的飞速发展,网络生活中的信息和数据呈现爆炸式的增长,并呈现出一种信息过载的现象,使得在海量的信息中获取到真正有价值的信息变得越来越难。数据挖掘的出现可以有效解决这一问题。分类算法是数据挖掘算法中常见的一种,它可以有效的将具有不同特征的事物进行分类,为保险公司找出感兴趣的信息。
1 数据挖掘
数据挖掘的定义:从技术角度来看看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程[2]。
从商业角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识[2]。
2 分类算法
分类算法主要包括k-最邻近、决策树、贝叶斯、神经网络和支持向量机等。分类过程分为两个阶段:学习阶段与分类阶段。
决策树分类算法是从一组无次序、无规则的样本中推理出决策树表示形式的分类规则。从根到叶子结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。
假设训练数据集是关系数据表S,共有n元组和m+1个属性,其中、、…、为描述属性或条件属性,C为类别属性。类别属性C的不同取值个数即类别数为u,其值域为(,,…,),在S中类别属性C取值为(1≤i≤u)的元组个数为。
属性(1≤k≤m),它的取值个数为v,其值域为(,,…,)。在类别属性C取值为(1≤i≤u)的子区域中,属性取(1≤j≤v)的元组个数为。类别属性C的无条件熵定义为:
,为C=(1≤i≤u)的概率。属性(1≤j≤m),类别属性C的条件熵定义为:
条件熵表示在已知描述属性的情况下,类别属性C对训练数据集S的分类能力。
属性(1≤k≤m),对应类别属性C的信息增益定义为:
表示在已知描述属性的情况下,类别属性C对训练数据集S分类能力增加的程度,或者说选择测试属性对分类提供的信息越多。
3 分类分析算法在保险理赔案件数据中的应用
Hadoop主要提供两个功能,MapReduce和HDFS。MapReduce在处理海量数据时将任务分解,并在多个节点处理,与Linux服务器结合,获得非常强大的大数据集群。HDFS即分布式文件系统,主要为分布式计算存储提供底层支持。
3.1 软硬件支持
本实验采用三台计算机进行Hadoop物理集群的搭建,计算机系统为CentOS6.3,Hadoop版本选择Hadoop-1.2.1。软硬件配置一致,4G内存,500G硬盘。一台计算机为Master结点,IP地址为192.168.116.128,其他两台计算机为Slave结点,IP分别为192.168.116.129和192.168.116.130。
3.2 实验过程
选取某保险公司的汽车保险理赔部分数据,包括用户的个人信息及汽车保险的详细信息,首先进行数据数据预处理。保险数据理赔案例方面的数据信息包括车牌号,驾驶员姓名,性别,年龄,驾龄,出险次数,驾驶员职业,保险金额,修理时间等。决策树分类主要是对理赔客户进行风险级别分类。客户的风险特征作为此次实验的特征变量,对该变量作如图3.1定义:
将保险金额、驾龄、修理时间3个变量作为决策树模型的输入变量,风险等级作为预测变量,即输出变量,建立投保客?舴缦盏燃杜斜鹉P汀1臼笛榻?有效数据的80%用于建模,20%用于挖掘模型测试[3]。
决策树挖掘模型的依赖关系,可以看出,驾龄与风险级别的关联性最强,一般而言,驾驶员驾龄越短,风险系数越高;次之的是修理费用,车损的严重程度与维修难易程度、风险级别呈正相关。
4 结束语
随着云计算时代的来临,大量的数据成为了重要的生产元素,利用分类算法可以在海量的汽车保险数据中找出对保险公司有利的信息,提高汽车保险公司的市场竞争力[4]。Hadoop分布式平台可以对大数据进行读取,存储,对于分类算法和Hadoop分布式平台的结合,为交叉学科提供了无限可能。
参考文献
[1]卢东标.基于决策树的数据挖掘算法研究与应用[D].武汉理工大学,200
原创力文档


文档评论(0)