- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计建模
统计建模是统计学中的核心工具和方法,它在精算理论研究和实务应
用中无处不在,发挥着重要作用。但在实际应用中,对统计建模的误解与
误用并不少见。针对统计建模这一重要主题,本文总结了因果解释和预测
建模的区别,描述了数据建模和算法建模两种文化,为读者普及统计建模
的概念,抛砖引玉,引出现代统计学的统计学习和机器学习发展方向,对
精算研究和精算实务工作有很好的指导意义。
统计建模应该是学术界非常流行的专业术语之一,当然也是精算学中最常
用的术语之一。作为方法和工具,统计建模在很多领域被广泛使用,初看上去
似乎很完美。但统计学是一个偶尔会出现惊奇与悖论的学科(例如,经验表明
在一个有 30 个同学的班上,十有八九会有同一天过生日的同学,这是否很惊
奇?另一个例子是面对同样的数据集,两人各说各话、各有各的结论的辛普森
悖论,这是否很费解?)。能否准确使用统计建模,并准确理解最后得到的结
论,取决于对统计建模的有关概念是否准确理解。
在统计学文献里,有两篇经典论文(Breiman 2001, Shmueli 2010),对
统计建模有系统的讨论。这两篇的角度有所不同,对读者会有多方面的启发。
01 解释性建模与预测性建模
统计建模是通过因果解释和预测方式
在 Shmueli (2010) 中,作者表明:
来发展和检验理论的有力工具。在许多领域,如经济学、心理学、教育学、
环境科学,统计模型几乎完全用于因果解释,而且具有较高解释功效的模型
通常也被认为具有较好的预测功效。
在图像识别、自然语言处理、生物信息学等领域,关注的焦点是经验预测,
而因果解释之间的关系很小也很间接 。然而,在其它研究领域,如流行病学,对
因果解释和经验预测的强调更为混杂 。
消除因果解释和预测两者之间的模糊性,不仅对适当的统计建模至关重要,
更重要的是,对适当的科学使用至关重要。解释和预测都是产生和检验理论的必
要条件,但它们在这方面的作用各不相 同。在统计学中需明确区分,这样才不会
导致对构建合理的解释模型与创建强大的预测模型之间的区别缺乏理解,从而不
会导致解释功效与预测功效之间的混淆 。
解释性建模和预测性建模分别反映 了使用数据和统计模型(或数据算法)方
法进行解释或预测的过程 。建模(modeling)与模型(models)不同,前者突出
所涉及的整个过程,从目标设定、研究设计、数据收集、到科学使用。
()解释性建模
1
在社会科学领域,统计方法几乎完全用于检验因果理论。给定一个因果理论
模型,把统计模型应用于数据,以检验因果假设 。在这样的模型中,假设由 自变
量 X 会导致因变量 Y 的结果。社会科学中用于检验因果假设的统计模型的类型,
几乎都是应用于观测数据的关联模型,回归模型是最常见的例子。这种做法的理
由在于,理论本身提供了因果关系。此时,解释性建模定义为应用统计模型检验
因果解释。
理论与数据之间的关系在不同领域当然有差异 。虽然在社会科学领域,比较
关注因果关系,但在自然语言处理和生物信息学等领域,对因果关系理论的重视
却要弱得多。
()预测性建模
2
预测性建模可定义为:将统计模型或数据算法应用于数据,以预测新的或未
来的可能结果的过程 。这个定义还包括时间序列预测,时刻 t 之前的观测值用于
预测时刻 t+k,k0 的可能值 。预测问题可分为回归、分类、聚类等几大类 。预测
性模型可以是产生预测的任何方法,无论是贝叶斯学派或频率学派、参数或非参
数方法、统计模型或数据算法等。
认识到解释性建模和预测性建模之间的区别,以及每种建模所起的不同科学
作用,并体现到统计教育中,对于科学知识的进步至关重要。
在 Shmueli (2010)的附录中,给出了一个比较简单的线性回归的例子,说明
预测功效较好的模型不必是“真实的”模型,其准确含义是指在期望预测误差
(expected prediction error)指标下,在某些情形下,对“真实的”包含两个自变
量的线性回归模型(可看成数据产生机制 )产生的数据,再来构造线性回归模型,
预测功效更好的模型可能只包含一个自变量 。这可以看成是预测性建模的一个陷
阱。
您可能关注的文档
- 卷积神经网络的局限性.pdf
- 项目管理需要解决的五类问题和应具备的技能.docx
- 银行客户体验.docx
- 智能水务数据管理.docx
- 地质灾害应急避险合同.docx
- 江苏省连云港市2021年小升初数学模拟试卷四含答案含解析苏教版.doc
- 智慧农业项目实施合同协议.docx
- 江苏省苏州四市五区2021届高三上学期期初调研试题数学Word版含答案.doc
- 公共卫生事件应急管控协议.docx
- 江苏省第九届优秀科技工作者候选人推荐工作方案草案.docx
- 江苏省盐城市滨海县三年级数学上册期末真题卷三含答案苏教版.docx
- 安全与急救课件下载安装.ppt
- 江苏省盐城市滨海县2019-2020学年七年级上学期期末语文试题含答案解析.docx
- 江苏省盐城市阜宁县罗桥初级中学九年级下学期第一次月考化学试题解析版.doc
- 即时配送外卖配送合同.docx
- 机电设备风险防控措施.pptx
- 江苏省盐城市大丰市第二中学2021-2022学年高一上学期期中考试历史试卷Word版含答案.doc
- 江苏省苏州新草桥中学2019-2020学年高一下学期6月月考物理试卷Word版含答案.doc
- 承压设备风险分级管控.pptx
- 江苏省苏州市吴江汾湖高级中学2020-2021学年高二上学期10月月考物理试卷Word版含答案.docx
原创力文档


文档评论(0)