贝叶斯学习-找源代码程序员.doc

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贝叶斯学习-找源代码程序员

 贝叶斯学习 贝叶斯推理提供了推理的一种概率手段。它基于如下的假定,即待考查的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。贝叶斯推理对机器学习十分重要,因为它为衡量多个假设的置信度提供了定量的方法。贝叶斯推理为直接操作概率的学习算法提供了基础,而且它也为其他算法的分析提供了理论框架。 介绍 贝叶斯学习同我们的机器学习研究相关,有两个原因。首先,贝叶斯学习算法能够计算显式的假设概率,如朴素贝叶斯分类器,它是解决相应学习问题的最有实际价值的方法之一。例如,Michie et al.(1994)详细研究比较了朴素贝叶斯分类器和其他学习算法,包括决策树和神经网络。他们发现朴素贝叶斯分类器在多数情况下与其他学习算法性能相当,在某些情况下还优于其他算法。本章描述了朴素贝叶斯分类器,并提供了一个详细例子:即它应用于文本文档分类的学习问题(如电子新闻分类)。对于这样的学习任务,朴素贝叶斯分类是最有效的算法之一。 贝叶斯方法对于机器学习研究的重要性还体现在,它为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操作概率数据。例如,本章分析了第2章的Find-S和候选消除算法,以判断在给定数据时哪一个算法将输出最有可能的假设。我们还使用贝叶斯分析证明了神经网络学习中的一个关键性的选择:即在搜索神经网络空间时,选择使误差平方和最小化的神经网络。我们还推导出另一种误差函数:交叉熵。它在学习预测概率目标函数时比误差平方和更合适。本章还用贝叶斯的手段分析了决策树的归纳偏置(即优选最短的决策树),并考查了密切相关的最小描述长度(Minimum Description Length)原则。对贝叶斯方法的基本了解,对于理解和刻画机器学习中许多算法的操作很重要。 贝叶斯学习方法的特性包括: 观察到的每个训练样例可以增量式地降低或升高某假设的估计概率。这提供了一种比其他算法更合理的学习途径。其他算法会在某个假设与任一样例不一致时完全去掉该假设。 先验知识可以与观察数据一起决定假设的最终概率。在贝叶斯学习中,先验知识的形式可以是(1)每个候选假设的先验概率(2)每个可能假设在可观察数据上的概率分布。 贝叶斯方法可允许假设做出不确定性的预测。(比如这样的假设:这一肺炎病人有93%的机会康复)。 新的实例分类可由多个假设一起作出预测,以它们的概率为权重。 即使在贝叶斯方法计算复杂度较高时,它们仍可做为一个最优的决策的标准衡量其他方法。 在实践中应用贝叶斯方法的难度之一在于,它们需要概率的初始知识。当这概率预先未知时,可以基于背景知识、预先准备好的数据以及关于基准分布的假定来估计这些概率。另一实际困难在于,一般情况下确定贝叶斯最优假设的计算代价比较大(同候选假设的数量成线性关系)。在某些特定情形下,这种计算代价可以被大大降低。 本章剩余部分的组成如下。6.2节介绍了贝叶斯理论,并定义了极大似然(maximum likelihood)假设和极大后验概率假设(maximum a posteriori probability hypotheses)。接下来的四节将此概率框架应用于分析前面章节的相关问题和学习算法。例如,我们证明了在特定前提下,几个前述的算法能输出极大似然假设。剩余的几节则介绍了几种直接操作概率的学习算法。包括贝叶斯最优分类器、Gibbs算法和朴素贝叶斯分类器。最后,我们讨论了贝叶斯置信网,它是一种基于概率推理的较新的学习方法;以及EM算法,是当存在未观测到变量时广泛使用的学习算法。 贝叶斯法则 在机器学习中,通常我们感兴趣的是在给定训练数据D时,确定假设空间H中的最佳假设。所谓最佳假设,一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能(most probable)假设。贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设下观察到不同数据的概率、以及观察的数据本身。 要精确地定义贝叶斯理论,先引入一些记号。我们用P(h)来代表还没有训练数据前,假设h拥有的初始概率。P(h)常被称为h的先验概率(prior probability ),它反映了我们所拥有的关于h是一正确假设的机会的背景知识。如果没有这一先验知识,那么可以简单地将每一候选假设赋予相同的先验概率。相似地,可用P(D)代表将要观察的训练数据D的先验概率(换言之,在没有确定某一假设成立时,D的概率)。下一步,以P(D|h)代表假设h成立的情形下观察到数据D的概率。更一般地,我们使用P(x|y)代表给定y时x的概率。在机器学习中,我们感兴趣的是P(h|D),即给定训练数据D时h成立的概率。P(h|D)被称为h的后验概率(posterior probabili

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档