PRML第一章阅读笔记.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PRML第一章阅读笔记

PRML 第一章阅读笔记 1.1 Example: Polynomial Curve Fi ing RMS(Roo -Mean-Square)定义: P7 通过这个处理 ,可以对比同个模型但是不同规模测试集的效果 1.2 Probabili y Theory 累积分布函数 :P18 似然函数的负对数在机器学习文献中 ,被称为是一种error func ion 最大似然函数法是点估计 ,而贝叶斯方法 ,不仅仅预测出给定的x对应的 ,同时还得出了对应 的概率密度函数。贝叶斯方法采用最大后 验概率来确定最优的w , 后验概率 ~= 似然函数*先验概率。因此使用贝叶斯方法 ,需要知道w的先验概率。 从结果中 ,我们可以得到 ,如果假设w的先验概率是零均值的高斯分布 ,那么其MAP的结果相当于最优化 正则化的平方和误差函数 纯粹 (全 )贝叶斯方法 : 纯粹的贝叶斯方法需要应用加法和乘法规则 ,对所有的w值进行积分。 从方差中可以看出 ,1.71的第一项是来自于目标值和估计值之间的噪声(通过最大似然函数法可以得到) ,而第二项是来自于w的不确定 性 ,是贝叶斯方法的结果。 1.3 Model Selec ion Training Se 用于训练 , Valida ion Se 用于比较不同模型的性能从而得到最优的模型 ,Tes se 用于评估模型的性能。 之所以不用验证 集(Valida ion Se )来评估 ,是因为验证集已经用于选择最优模型了 ,此时数据或多或少会向验证集倾斜 ,用它来评估性能就不再合适 了。 在数据少或者很珍贵的情况下 ,采用交叉检验 ,将数据分成S份 ,用S-1份训练模型 ,用1份来验证模型 ,重复S次 ,然后求每个模型的平均 误差。这样的坏处在于 ,计算量很大 ,如果某个模型有多个参数需要选择 ,那么最坏的情况下 ,计算量可能是参数数量的指数倍。 AIC准则 : 其中M是参数的数量 ,p(D|w) 是似然函数 ,求使得AIC最大的参数 ,但是实际使用中 ,AIC准则会偏好简单的模型。 1.4 curse of dimensionali y (纬度灾难 ) 数据高维度会带来很多问题 ,但是不影响我们寻找高维度空间内解决问题的有效方法 ,原因有二 ,其一实际数据一般都位于较低的维度空 间 , 其二 ,真实数据通常比较光滑 (至少局部光滑 ), 对于新的输入变量 ,我们可以使用类似差值的方法来进行预测。 1.5 Decision Theory (决策论) 从训练集中确定p(x, ) 是inference (推断问题 )的一个例子 ,而从p(x, )中 ,得到最终的预测 ,则是decision(决策过程)。 通常 ,我们解 决了inference ,那么decision将会变得很容易。 1.5.1 minimizing he misclassifica ion ra e 最小化错误分类率 而我们的目的就是为了让p(mis ake)最小 ,那么我们应该这么做 ,如果p(x,c1) p(x, c2) ,那么我们应当将该x分给c1 ,因为这样可以产 生的误分类率更小。 p(x)对于两项都是相同的 ,因此我们在分类时 ,应当将x归于后验概率高的那一类中 ,从而使误分类率更小。 全贝耶斯方法中 ,会求出 ,而这个就相当于此处的后验概率。 1.5.2 Minimizing he expec ed loss 由于预测值的真实类别未知(此时已经处于判决阶段 ,是预测最佳结果的过程) ,因此无法直接使用损失函数 ,因此我们转而去最小化平均 损失。 对于某个固定的x而言 ,一定会被分类到某个固定的j ,因此1.80中的积分和对j 求和就不存在了。因此 ,对于每个x而言 ,就相当于最小化 1.5.3 The rej ec op ion 如果各个类别的后验概率p(C|x) ,都大小相仿 ,那么很容易产生分类误差 ,此时 ,我们可以设置一个拒绝门限 ,如果p(C|x) 小于某个值 时 ,模型不做分类 ,从而降低分类错误。 1.5.4 inference and decision 我们把分类问题分解成两个独立步骤 ,第一步是推断(获得p(C|x) ,第二步是决策。 还有一种方法 ,直接将推断和决策合并在一起 ,将输 入x直接映射到C ,这称为判别函数。 共有三种方法可以解决决策问题 a) 生成模

文档评论(0)

xxj1658888 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档