网站大量收购独家精品文档,联系QQ:2885784924

第五章分类与回归.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章分类与回归.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * e.g. 用color和shape描述水果 Color shape fruit Yello Long Banana Red Round Apple Green Round Apple Red Round Tomato … … … x:Red Round ? 假定,(相关的假设)H:x是apple 则 P(x):所有训练样本中,color=red,shape=round的水果的概率 P(H):所有训练样本中,fruit=apple的概率 P(x|H):已知训练样本中,fruit=apple情况下,color=red,shape=round的概率 P(H|x):测试记录为(color=red,shape=round)时,该样本属于apple的概率 P(x),P(H),P(x|H)皆为可计算项,所以可由这三项计算出x属于某一类的概率大小P(H|x). Bayes公式的实质:从先验概率P(Ci)到后验概率P(Ci|x) 2. Na?ve Bayes classification method (基于最小错误率的Bayes方法) 按照Bayes理论求后验概率P(Ci|x),到时哪个概率大,就被归到哪一类。 Example: 已知一个训练集,4个属性,14个样本,用Bayes方法判定第15号样本属于哪一类。 序号 属 性 类别 天气 温度 湿度 风力 1 晴 热 高 无 2 2 晴 热 高 有 2 3 阴 热 高 无 1 4 雨 暖 高 无 1 5 雨 凉 正常 无 1 6 雨 凉 正常 有 2 7 阴 凉 正常 有 1 8 晴 暖 高 无 2 9 晴 凉 正常 无 1 10 雨 暖 正常 无 1 11 晴 暖 正常 无 1 12 阴 暖 正常 有 1 13 阴 热 正常 无 1 14 雨 暖 高 有 2 15 雨 暖 正常 无 ? 3. 贝叶斯信念网络 朴素贝叶斯分类是基于各类别相互独立这一假设来进行分类计算的,也就是要求若给定一个数据样本类别,其样本属性的取值应是相互独立的。这一假设简化了分类计算复杂性。若这一假设成立,则与其它分类方法相比,基本贝叶斯分类是最准确的;但实际上变量间的相互依赖情况是较为常见的。 贝叶斯信念网络就是用于描述这种相互关联的概率分布(联合条件概率分布)。该网络能够描述各属性子集之间有条件的相互独立。它提供了一个图形模型来描述其中的因果关系,而学习也正是基于这一模型进行的。这一图形模型就称为贝叶斯网络、贝叶斯信念网络(或简称为信念网络)。 信念网络组成 1.有向无环图 其中的每一个结点代表一个随机变量;每一条弧(两个结点间连线)代表一个概率依赖。 若一条弧从结点Y到结点Z,那么Y就是Z的一个父结点,Z就是Y的一个子结点。给定父结点,每个变量有条件地独立于图中非子结点。 变量既可取离散值,也可取连续值。它们既可对应数据集中实际的变量,也可对应数据集中的“隐含变量”,以构成一个关系。 下图所示就是一个简单的信念网络。它表示一个人患肺癌与他家庭的肺癌史有关;也与该人是否吸烟有关。但是与肺气肿无关。 信念网络组成 2.包含所有变量的条件概率表(Conditional Probability Table, CPT) 对于一个变量Z,CPT定义了一个条件分布P(Z|parent(Z));其中parent(Z)表示Z的父结点。 下表是LungCancer的一个CPT表。它描述了对于其父结点每一种组合,LungCancer取值的条件概率。 贝叶斯信念网络的学习 在一个贝叶斯信念网络的学习或训练过程中,其网络结构必须首先事先确定或从数据中推出。 网络所涉及变量必须是可观察或隐含在训练数据集合中。在网络结构已知的情况下,如果样本数据是完整的,可以用最大似然估计和贝叶斯估计来估计参数;如果样本数据出现缺失,就要用EM (期望最大)算法来估计参数 贝叶斯网络学习就是从大量样本数据中得到网络结构和参数的过程. 网络结构学习 包括两部分:模型选择和模型优化。 模型选择:采用什么样的标准来评定不同模型的好坏。包括边缘似然度,贝叶斯评分,BIC评分,MDL评分,ALC评分,HVL评分和CVL评分等 模型优化:如何把最好的模型结构找出来。有K2算法,爬山法,贪婪搜索,S-EM算法,MS-EM算法等 Bayes Net Toolbox for Matlab (/) 张连文,贝叶斯网 引论,科学出版社,2006. 信念网络中的内部结点可以被选为输出结点,用以代表类别属性。 网络中可以有多个

文档评论(0)

shiyouguizi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档