- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Contents 贝叶斯分类法简介 分类方法的目标是构造一个分类器,通过分析由属性描述的样本(或实例,对象等)来将一个未知样本分到几个预先已知的类中。 基于机器学习(Machine Learning)的自动分类方法常用的有最近邻分类、回归模型、决策树、推导规则、贝叶斯分类、神经网络、支持向量机以及相关反馈等。 贝叶斯分类法由于具有坚实的数学理论基础以及综合先验信息和数据样本信息的能力,是公认的较为有效和常用的一种分类方法。 贝叶斯分类法简介 贝叶斯分类通过有指导的学习对属性集和类变量之间的概率关系进行建模。 基于贝叶斯理论的分类方法,目前主要由两个分支构成: 一个是朴素贝叶斯分类器; 一个是贝叶斯网络分类器。 朴素贝叶斯分类器 朴素贝叶斯分类器(Naive Bayesian Classifier,NBC)是一种有监督的学习方法。 朴素贝叶斯分类器用产生的概率估计来替代类预测,即对于每一个类值,估计具有某些类属性值的实例属于这个类的条件概率,最终将实例归入条件概率最大的类别当中。 朴素贝叶斯假定一个属性的值对给定类的影响独立于其他的属性值。 朴素贝叶斯分类器 朴素贝叶斯建模过程可以分为以下3步: (1)设样本有n个属性(A1,A2,…,An),类变量C有m个不同的值C1,C2,…Cm,X是一个未知类别的样本; (2)根据贝叶斯定理得知: P(Ci|X)=P(X|Ci)P(Ci)/P(X) ; (3)模型将未知类别的样本X归到类Ci中,当且仅当P(Ci|X) P(Cj|X),对于所有的j成立(1≤j≤m,j≠i),即P(Ci|X)最大。 在属性条件独立的假设下,每一个属性变量都以类变量作为唯一的父节点,就得到朴素贝叶斯分类器。 贝叶斯网络 贝叶斯网络是一种通过提供图形化的结构简洁易懂的展现当类属性变量相关时的概率分布的方法; 贝叶斯网络用条件概率的形式表示变量间相互影响的程度,最终通过贝叶斯概率对某一事件未来可能发生的概率进行估计。 贝叶斯网络图三大特点 图中的每一个节点代表一个属性,节点之间通过箭头连接,箭头末端表示被影响因素(父母),箭头所指向的变量为影响因素(子女),通过箭头形成有向无环图。 每一个节点旁边均有一个概率表,称为条件概率分布: A:若节点X没有父母,则表中为先验概率P(X); B:若节点X只有一个父母Y,则表中为条件概率 ; C:若节点X有多个父母 ,则 。 在贝叶斯网络中,如果某节点的父母已知,那么它将条件独立于它的所有非后代节点。 贝叶斯网络 贝叶斯网络的建模过程通常包括两个步骤: 1、创建网络结构; 2、估计每个节点概率表中的概率值; 贝叶斯网络的学习过程亦包括两个步骤: 1、学习类变量与属性变量之间的结构关系; 2、学习属性变量之间的关系。 贝叶斯网络 结构学习的k2算法 参数估计方法——极大似然估计 建模误判率= (训练集误判数+测试集误判数)/(训练集样本数+测试集样本数) 预测误判率= 预测误判样本数/预测样本总数 数据分析 数据简介 数据集中包含了从1981年起至2002年止投保了伤害险和健康险的投保人基本信息和到截止日期时的赔付信息; 研究目的是使用多个属性信息来构造模型,通过模型来计算赔付概率,最终对是否赔付进行预测和分类; 该数据集共含94785条记录,有赔付记录的占3.66%,每条记录均包含29个变量,其中X1至X28为属性变量(投保人基本信息),X29是两分类的类别变量( 赔付状况),除理赔总金额与被保人关系两个变量外,其他变量均无缺失值。 训练集、测试集和外推集的划分 将数据集拆分为两部分: 前 65535条数据(约占2/3)作为第一部分: 采用随机抽样的手段将其均分为训练集和测试集; 抽样原理保证单个数据集的代表性。 后29250条数据(约占1/3)作为第二部分 : 看作具有未知结构的外推集,用以检验模型的预测能力。 变量选择 变量选择 朴素贝叶斯模型 基于k2算法的贝叶斯网络 基于关联规则(和先验知识)的贝叶斯网络 多个模型结果比较 Company Logo LOGO 基于贝叶斯分类的保险赔付 问题研究 王 旭 刘 冬 石 磊 朱建旭 贝叶斯分类方法简介 建模误判率与预测误判率 朴素贝叶斯模型 贝叶斯网络模型 多种模型比较与解释 变量选择 数据集划分 数据简介 贝叶斯模型 输出结果 全部记录均为1,无实质意义 投保件次 X27 理赔在前,理赔件次在后,因此对是否理赔无影响 理赔件次 X26 通过x26
文档评论(0)