数据挖掘技术在汽车保险中应用.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在汽车保险中应用 【摘 要】介绍数据挖掘中的关联规则挖掘技术在汽车 保险中的实际应用,关联规则分析汽车保险中的风险因素与 赔付率之间的关系。得出的关联规则对车险行业的决策和发 展有一定参考指导意义。 【关键词】数据挖掘;关联规则;风险 一 ?数据挖掘及关联规则介绍 数据挖掘(Data Mining, DM)又称数据库中的知识发 现(Knowledge Discover in Database, KDD),是目前 人工智能和数据库领域研究的热点问题,所谓数据挖掘是指 从数据库大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但 又潜在的有用信息和知识的过程。从商业企业的角度讲数据 挖掘可以描述为:按照企业既定业务目标,对大量的企业数 据进行分析和探索,揭示隐藏的、未知的或验证已知的规律 性,并进一步将其模型化的先进有效的方法。数据挖掘是一 种决策支持过程,它主要基于人工智能、机器学习、模式识 别、统计学、数据库、可视化技术等,高度自动化地分析企 业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮 助决策者调整市场策略,减少风险,做出正确的决策。 关联规则挖掘是数据挖掘中的重要课题和研究方法。最 早是由Agrawal等人提出的,关联规则挖掘可以发现存 在于数据库中的项目或属性间的隐含关系[1] o关联规则的 一般定义如下:1={11, 12,…,Im}是一项目集,D是一事 务数据库,D中的每个事务T都是I的子集即TEI.每个事 务都有一个标识符,称为TID.若A是一项目集,当且仅当 ACT时,我们就说事务T包含了 A。一条关联规则就是形如 A=B的蕴含关系。其中A包含于I, B包含于I且APB为空 集?如果D中包含AUB的比例是s,就称关联规则A=B在D 中的支持度为s,也可以表示为概率P (AUB);如果D中包 含A的同时也包含B的比例是c,则说关联规则AB的置信度 为c,表示为条件概率P (B|A),就是: s=sup (A=B) =P (AUB) c=conf (A=B) =P (A|B) =sup (AUB) /sup (A) 给定事务集D,挖掘关联规则问题就是发现所有支持度 (sup)和置信度(conf)分别满足最小支持度阈值和最小 置信度阈值的规则。 关联规则挖掘的步骤[2] 找出所有的频繁项集。这些项集出现的频率至少 和预定义的最小支持数一样,即所有满足最小支持度的项集 的集合。 由频繁项集中产生相应的强关联规则。根据定义, 这些规则必须满足最小支持度和最小置信度。即确定规则 A二〉B是否有效,可以令: r=sup (AUB) /sup (A),当且仅当 rmin_conf 时,规 则有意义(其中min_conf为最小置信度)。 解释并输出规则 步骤一是关联规则发现算法设计的核心问题,因为它的 效率高低是算法的关键. 由于Apriori关联规则算法[3]需要产生大量候选项集, 资源消耗巨大,效率低。而FP-Growth关联规则算法只需扫 描一次数据库,对系统资源的消耗较小,效率相对较高。 因此,对于海量数据的保险信息系统,本文选用FP-Growth 算法进行关联规则挖掘. 二.关联规则挖掘在车辆保险中的应用 1?数据准备 数据准备是数据挖掘过程的先决条件,数据质量将直接 影响数据挖掘的效率和准确度以及最终规则的合理有效性。 本文选取某大型保险公司省级公司近8年车险数据库数据进 行挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况、 地理环境、气候条件、社会环境、经营管理等因素,为此研 究这些因素与风险的关系,并结合实际情况和对风险的影响 程度,从中选取的目标数据每条记录中包括年龄、性别、婚 姻状况、驾龄、职业、车重与载货重、车型、车龄、汽车颜 色、使用性质、投保险种、保费保额、汽车贷款标志、购买 价格、多车所有情况、是否连续投保、投保地点、销售渠道、 投保日期、出险日期、赔付率等21个属性进行关联规则的 挖掘整理归纳。 2.数据离散化和去冗余[4] 利用计算机对数据库的海量数据进行分析挖掘,需要对 连续的数据作离散化工作。年龄、保额、投保出险日期、赔 付率都是连续的数据。为了离散量化,根据情况和计算机编 程计算的需要可将这些数据分为几类。例如,年龄分为al (<20 岁),a2 (20-25 岁),a3 (25-34 岁),a4 (35-45 岁),a5 0=46岁),将日期按提取数据年份年分为8年,每 年具体日期按月分为12个值。将赔付率划分为[00,]、(0, 10%]、 (10%, 30%]、 (30%, 50%]、 (50%, 70%]、 (70%, 100%]、 (100%, 200%]、(200%, 300%]、(300%, +^]九类。去除由

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档