第五章分类与回归.ppt

下载文档 降价啦

12
0
约1.3万字
约 75页
2018-09-21 发布于天津
举报
版权申诉
保障服务

第五章分类与回归.ppt

1、本文档共75页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第五章分类与回归.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * e.g. 用color和shape描述水果 Color shape fruit Yello Long Banana Red Round Apple Green Round Apple Red Round Tomato … … … x：Red Round ? 假定，（相关的假设）H：x是apple 则 P(x)：所有训练样本中，color＝red，shape＝round的水果的概率 P(H)：所有训练样本中，fruit＝apple的概率 P(x|H)：已知训练样本中，fruit＝apple情况下，color＝red，shape＝round的概率 P(H|x)：测试记录为（color＝red，shape＝round）时，该样本属于apple的概率 P(x)，P(H)，P(x|H)皆为可计算项，所以可由这三项计算出x属于某一类的概率大小P(H|x). Bayes公式的实质：从先验概率P(Ci)到后验概率P(Ci|x) 2. Na?ve Bayes classification method (基于最小错误率的Bayes方法) 按照Bayes理论求后验概率P(Ci|x)，到时哪个概率大，就被归到哪一类。 Example: 已知一个训练集，4个属性，14个样本，用Bayes方法判定第15号样本属于哪一类。序号属性类别天气温度湿度风力 1 晴热高无 2 2 晴热高有 2 3 阴热高无 1 4 雨暖高无 1 5 雨凉正常无 1 6 雨凉正常有 2 7 阴凉正常有 1 8 晴暖高无 2 9 晴凉正常无 1 10 雨暖正常无 1 11 晴暖正常无 1 12 阴暖正常有 1 13 阴热正常无 1 14 雨暖高有 2 15 雨暖正常无？ 3. 贝叶斯信念网络朴素贝叶斯分类是基于各类别相互独立这一假设来进行分类计算的，也就是要求若给定一个数据样本类别，其样本属性的取值应是相互独立的。这一假设简化了分类计算复杂性。若这一假设成立，则与其它分类方法相比，基本贝叶斯分类是最准确的；但实际上变量间的相互依赖情况是较为常见的。贝叶斯信念网络就是用于描述这种相互关联的概率分布（联合条件概率分布）。该网络能够描述各属性子集之间有条件的相互独立。它提供了一个图形模型来描述其中的因果关系，而学习也正是基于这一模型进行的。这一图形模型就称为贝叶斯网络、贝叶斯信念网络（或简称为信念网络）。信念网络组成 1.有向无环图其中的每一个结点代表一个随机变量；每一条弧（两个结点间连线）代表一个概率依赖。若一条弧从结点Y到结点Z，那么Y就是Z的一个父结点，Z就是Y的一个子结点。给定父结点，每个变量有条件地独立于图中非子结点。变量既可取离散值，也可取连续值。它们既可对应数据集中实际的变量，也可对应数据集中的“隐含变量”，以构成一个关系。下图所示就是一个简单的信念网络。它表示一个人患肺癌与他家庭的肺癌史有关；也与该人是否吸烟有关。但是与肺气肿无关。信念网络组成 2.包含所有变量的条件概率表（Conditional Probability Table, CPT）对于一个变量Z，CPT定义了一个条件分布P(Z|parent(Z))；其中parent(Z)表示Z的父结点。下表是LungCancer的一个CPT表。它描述了对于其父结点每一种组合，LungCancer取值的条件概率。贝叶斯信念网络的学习在一个贝叶斯信念网络的学习或训练过程中，其网络结构必须首先事先确定或从数据中推出。网络所涉及变量必须是可观察或隐含在训练数据集合中。在网络结构已知的情况下,如果样本数据是完整的,可以用最大似然估计和贝叶斯估计来估计参数;如果样本数据出现缺失,就要用EM (期望最大)算法来估计参数贝叶斯网络学习就是从大量样本数据中得到网络结构和参数的过程. 网络结构学习包括两部分:模型选择和模型优化。模型选择：采用什么样的标准来评定不同模型的好坏。包括边缘似然度，贝叶斯评分，BIC评分，MDL评分，ALC评分，HVL评分和CVL评分等模型优化：如何把最好的模型结构找出来。有K2算法,爬山法,贪婪搜索,S-EM算法,MS-EM算法等 Bayes Net Toolbox for Matlab (/) 张连文，贝叶斯网引论，科学出版社，2006. 信念网络中的内部结点可以被选为输出结点，用以代表类别属性。网络中可以有多个