机器学习法汇总大全.ppt

  1. 1、本文档共411页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习法汇总大全

Storm BusTourGroup Lightning Thunder ForestFire Campfire S,B S,┐B ┐S,B ┐S,┐B C 0.4 0.1 0.8 0.2 ┐C 0.6 0.9 0.2 0.8 Campfire 贝叶斯信念网的表示(2) 对网络变量的元组Y1...Yn赋以所希望的值(y1...yn)的联合概率计算公式如下: 所有变量的局部条件概率表以及由网络所描述的一组条件独立假定,描述了该网络的整个联合概率分布 贝叶斯信念网的推理 可以用贝叶斯网在给定其它变量的观察值时推理出某些目标变量的值 由于所处理的是随机变量,所以一般不会赋予目标变量一个确切的值 真正需要推理的是目标变量的概率分布,它指定了在给予其他变量的观察值条件下,目标变量取每一个可能值的概率 在网络中所有其它变量都确切知道的情况下,这一推理步骤很简单 一般来说,贝叶斯网络可用于在知道某些变量的值或分布时计算网络中另一部分变量的概率分布 学习贝叶斯信念网 从训练数据中学到贝叶斯信念网,有多种讨论的框架: 网络结构可以预先给出,或由训练数据中得到 所有的网络变量可以直接从每个训练样例中观察到,或某些变量不能观察到 如果网络结构已知且变量可以从训练样例中完全获得,那么得到条件概率表就比较简单; 如果网络结构已知,但只有一部分变量值能在数据中观察到,学习问题就困难多了。这类似于在人工神经网络中学习隐层单元的权值; Russell(1995)提出了一个简单的梯度上升过程以学习条件概率表中的项,相当于对表项搜索极大似然假设。 贝叶斯网的梯度上升训练 令wijk代表条件概率表的一个表项,即在给定父节点Ui取值uik时,网络变量Yi值为yij的概率 例如图6-3,wijk为最右上方的表项,那么Yi为变量Campfire,Ui是其父节点的元组Storm, BusTourGroup,yij=True,且uik=False, False S,B S,┐B ┐S,B ┐S,┐B C 0.4 0.1 0.8 0.2 ┐C 0.6 0.9 0.2 0.8 Campfire 贝叶斯网的梯度上升训练(2) lnP(D|h)的梯度由对每个wijk求导数得到 例如,为计算图6-3中表右上方的表项的lnP(D|h)的导数,需要对D中每个训练样例d计算P(Campfire=True, Storm=False, BusTourGroup=False|d) 当训练样例中无法观察到这些变量时,这些概率可用标准的贝叶斯网从d中观察到的变量中推理得到 这些量能够很容易地从贝叶斯网推理过程中得到,几乎不需要附加的开销 (6.25) 贝叶斯网的梯度上升训练(3) 式子6.25的推导 用Ph(D)来表示P(D|h) 假定在数据集D中的各样例d都是独立抽取的 贝叶斯网的梯度上升训练(4) 更新权值 归一化处理,保持在区间[0,1]之间,且?jwijk对所有i,k保持为1 这个算法只保证找到局部最优解,替代梯度上升的一个算法是EM算法 学习贝叶斯网的结构 如果贝叶斯网的结构未知,那么需要学习贝叶斯网的结构 Cooper Herskovits提出了一个贝叶斯评分尺度,以便从不同网络中进行选择 Cooper Herskovits提出了算法K2,启发式算法,用于在数据完全可观察时学习网络结构 基于约束的学习贝叶斯网络结构:从数据中推导出独立和相关的关系,然后用这些关系来构造贝叶斯网 用于预测概率的极大似然假设(3) hML (6.13) 式子6.13与熵函数的一般式相似,因此它的负值常称为交叉熵 在神经网络中梯度搜索以达到似然最大化 前面讨论了利用式子6.13求极大似然假设,现用G(h,D)表示,为神经网络学习推导一个权值训练法则,使用梯度上升法使G(h,D)最大化 考虑简单的情况,假定神经网络从一个单层的sigmoid单元建立,则 在神经网络中梯度搜索以达到似然最大化(2) 因为要使P(D|h)最大化而不是最小化,因此执行梯度上升搜索,而不是梯度下降搜索。 与反向传播更新法则对比 使误差平方最小化的法则寻找到极大似然假设的前提是:训练数据可以由目标函数值加上正态分布噪声来模拟 使交叉熵最小化的法则寻找极大似然假设基于的前提是:观察到的布尔值为输入实例的概率函数 最小描述长度准则 奥坎姆剃刀

文档评论(0)

ipbohn97 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档