基于GAM_Tweedie模型的车险定价研究..docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于GAM_Tweedie模型的车险定价研究.

基于GAM_Tweedie模型的车险定价研究摘要:广义线性模型作为车险费率厘定的主流方法,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线性形式的,单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。关键词:广义线性模型,车险费率厘定,Tweedie分布,广义加法模型引言 车险定价实则是对索赔频率、索赔强度或纯保费进行预测。在车险定价实务中,经常假设索赔频率与索赔强度相互独立,并分别建立索赔频率和索赔强度的广义线性模型。在独立的假设下,可以把索赔频率与索赔强度的预测值相乘从而求得纯保费的预测值。这种方法简单易行,在非寿险精算实务中得到广泛的应用,但其忽略了索赔频率与索赔强度之间可能存在的相依关系,从而造成预测的偏差。而在纯保费的预测中,主要是应用Tweedie广义线性模型。Tweedie广义线性模型,是假定保单的累积赔付额服从Tweedie分布,对赔付额的均值函数建立回归模型。其要求协变量的影响为预测函数的线性形式,但在实际的情况下,许多对纯保费的影响因素不仅仅是表现成线性形式的,如空间协变量,大多数情况下其对响应变量均值函数的影响是非线性的,如果单纯地用线性估计会造成一些变量的不显著而丢失重要的影响因素。为了更好的拟合数据,从而有必要对其进行优化推广,在广义线性模型中纳入平滑预测项,将其推广到广义加法模型。从线性和非线性两个方面去分析各因素对预测函数不同的影响程度。本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,利用R软件对模型的参数进行估计检验。通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响,从而改进了传统广义线性模型对纯保费的预测精度。理论基础2.1 广义线性模型 广义线性模型(GLM)首次由Nelder和Wedderburn(1972)提出,是常见正态线性模型的推广形式。模型要求响应变量只能通过线性形式依赖于自变量,从而保持了线性自变量的思想。其对线性模型进行了两个方面的推广:一是在因变量分布方面,GLM扩充了分布类型,假设因变量服从指数分布族,其密度函数可以表示为其中,为已知函数,对所有的观察值具有相同的形式。为自然参数,与均值是一一对应关系,为离散参数。指数分布族的均值和方差可以分别表示为:指数分布族包括正态分布、二项分布、泊松分布、伽马分布和逆高斯分布等。 二是在表达形式方面,GLM是假设响应变量均值经过某连接函数变换后,等于解释变量的线性组合形式,具体如下:其中,是风险的期望值,是方差函数,是解释向量,是回归系数向量,是线性预测项,是连接函数。 模型中参数可利用极大似然估计法来估计,通过加权最小二乘估计,再使用Newton-Raphson迭代算法,可得到的极大似然估计。因为数据和算法的复杂,可通过R中的软件包进行拟合。2.2 Tweedie分布 Tweedie分布族是一类特殊的指数分布族,证明参见孙维伟(2014),用来表示,由方差函数完全确定,p的取值在。图一给出了在、保持不变的情况下,取不同的值时Tweedie分布族的概率密度和累积分布。图一 Tweedie分布族的概率密度和累计分布图其中指数参数不同的取值对应着不同的分布形式,P=0、1、2、3分别对应正态、泊松、伽马和逆高斯分布,当1P2时,为Tweedie分布,即复合泊松分布,由泊松分布和伽马分布复合而成:如果保单在保险期间的索赔次数服从泊松分布,每次索赔的赔付额服从伽马分布,则保单在整个保险期间的累积赔付额服从Tweedie分布,适合用来拟合个体保单的总赔付金额数据。Tweedie分布在零点有一个较大的概率堆积,从图一概率密度函数可看出,当P值越接近2时,其在零点的概率越大,这与车险不发生损失几率大的情况符合。在车险定价实务中,如果索赔频率和索赔强度之间的相依关系较强时,常采用Tweedie回归模型直接对索赔额建模。可通过迭代算法求得Tweedie分布指数参数p的极大似然估计值。2.3 广义加法模型2.3.1 模型介绍 进入21世纪以来,分类费率厘定的主流方法被GLM所取代,但随着车险行业的发展、数据的复杂化,由于其对协变量的影响必须为预测函数的线性形式,使得传统的GLM已经不能满足精算者们的需求,于是对GLM进行扩展成广义加法模型(GAM)来拟合更加复杂的数据。 GAM是在GLM的基础框架下,将解释变量的形式引入非参数函数,使得其更一般化,从而具有较小的偏差、良好的稳健性和广泛适用性。具体来看

文档评论(0)

jiulama + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档