- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在汽车保险中应用
数据挖掘技术在汽车保险中应用
【摘 要】介绍数据挖掘中的关联规则挖掘技术在汽车保险中的实际应用,关联规则分析汽车保险中的风险因素与赔付率之间的关系。得出的关联规则对车险行业的决策和发展有一定参考指导意义。
【关键词】数据挖掘;关联规则;风险
一.数据挖掘及关联规则介绍
数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在的有用信息和知识的过程。从商业企业的角度讲数据挖掘可以描述为:按照企业既定业务目标,对大量的企业数据进行分析和探索,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
关联规则挖掘是数据挖掘中的重要课题和研究方法。最早是由 Agrawal 等人提出的,关联规则挖掘可以发现存在于数据库中的项目或属性间的隐含关系[1]。关联规则的一般定义如下:I={I1,I2,…,Im}是一项目集,D是一事务数据库,D中的每个事务T都是I的子集即T∈I.每个事务都有一个标识符,称为TID.若A是一项目集,当且仅当A∈T时,我们就说事务T包含了A。一条关联规则就是形如A=B的蕴含关系。其中A包含于I,B包含于I且A∩B为空集.如果D中包含A∪B的比例是s,就称关联规则A=B在D中的支持度为s,也可以表示为概率P(A∪B);如果D中包含A的同时也包含B的比例是c,则说关联规则AB的置信度为c,表示为条件概率P(B|A),就是:
s=sup(A=B)=P(A∪B)
c=conf(A=B)=P(A|B)=sup(A∪B)/sup(A)
给定事务集D,挖掘关联规则问题就是发现所有支持度(sup)和置信度(conf)分别满足最小支持度阈值和最小置信度阈值的规则。
关联规则挖掘的步骤[2]
(1)找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样,即所有满足最小支持度的项集的集合。
(2)由频繁项集中产生相应的强关联规则。根据定义,这些规则必须满足最小支持度和最小置信度。即确定规则A=B是否有效,可以令:
r=sup(A∪B)/sup(A),当且仅当rmin_conf时,规则有意义(其中min_conf为最小置信度)。
(3)解释并输出规则
步骤一是关联规则发现算法设计的核心问题,因为它的效率高低是算法的关键.
由于Apriori关联规则算法[3]需要产生大量候选项集,资源消耗巨大,效率低。而FP-Growth关联规则算法只需扫描一次数据库, 对系统资源的消耗较小,效率相对较高。因此,对于海量数据的保险信息系统,本文选用FP-Growth算法进行关联规则挖掘.
二.关联规则挖掘在车辆保险中的应用
1.数据准备
数据准备是数据挖掘过程的先决条件,数据质量将直接影响数据挖掘的效率和准确度以及最终规则的合理有效性。本文选取某大型保险公司省级公司近8年车险数据库数据进行挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况、地理环境、气候条件、社会环境、经营管理等因素,为此研究这些因素与风险的关系,并结合实际情况和对风险的影响程度,从中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等21个属性进行关联规则的挖掘整理归纳。
2.数据离散化和去冗余[4]
利用计算机对数据库的海量数据进行分析挖掘,需要对连续的数据作离散化工作。年龄、保额、投保出险日期、赔付率都是连续的数据。为了离散量化,根据情况和计算机编程计算的需要可将这些数据分为几类。例如,年龄分为a1(<20岁),a2(20-25岁),a3(25-34岁),a4(35-45岁),a5(=46岁),将日期按提取数据年份年分为8年,每年具体日期按月分为12个值。将赔付率划分为 [00,]、(0,10%]、(10%,30%]、(30%,50%]、(50%,70%]、(70%,100%]、(100%,200%]、(200%,300%]、(300%,+∞]九类。去除由于误操作输入产生的明显不合逻辑和业务要求的垃圾数据。
原创力文档


文档评论(0)