机器学习之评估假设.pptVIP

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
思考题 如果假设h在n=65的独立抽取样本上出现r=10个错误,真实错误率的90%置信区间是多少?95%的单侧置信区间(上界)是多少?90%的单侧区间是多少? 中心极限定理 考虑如下的一般框架 在n个独立抽取的且服从同样概率分布的随机变量Y1...Yn中观察试验值 令?代表每一变量Yi服从的未知分布的均值,并令?代表标准差,称这些变量Yi为独立同分布随机变量 为了估计Yi服从的分布的均值?,我们计算样本的均值 中心极限定理说明在n??时, 所服从的概率分布为一正态分布,而不论Yi本身服从什么样的分布 服从的分布均值为?,而标准差为 中心极限定理(2) 定理5.1(中心极限定理)考虑独立同分布的随机变量Y1...Yn的集合,它们服从一任意的概率分布,均值为?,有限方差为?2,定义样本均值为 ,当n??时,式子 服从正态分布,均值为0且标准差为1. 中心极限定理说明在不知道独立的Yi所服从的基准分布的情况下,我们可以得知样本均值 的分布形式,说明了怎样使用 的均值和方差来确定独立的Yi的均值和方差 中心极限定理说明了任意样本均值的估计量服从的分布在n足够大时可以近似为正态分布 两个假设错误率间的差异 问题: 考虑某离散目标函数的两个假设h1和h2,h1在一拥有n1个随机抽取的样例的样本S1上测试,h2在一拥有n2个从相同分布中抽取的样例的样本S2上测试,要估计这两个假设的真实错误率间的差异 d=errorD(h1)-errorD(h2) 两个假设错误率间的差异(2) 使用5.4节中描述的四个步骤来推导d的置信区间估计 确定待估计的参数,如上所述的d 定义一估计量, 是d的无偏估计量,即E[ ]=d。由于对于较大的n1和n2,errorS1(h1)和errorS2(h2)都近似遵从正态分布,两个正态分布的差仍为正态分布,方差为两个正态分布的方差的和 (5.12) 现在知道了 服从均值为d、方差为?2的正态分布,因此d的N%置信区间是 (5.13) 两个假设错误率间的差异(3) 上面分析的是h1和h2在相互独立的数据样本上测试的情况,如果在同一个样本上测试h1和h2,那么也可以使用公式5.13计算置信区间 这种情况下的方差通常小于式子5.12给出的方差,这是因为单个样本消除了两个样本组合带来的随机差异,这样,由式子5.13给出的置信区间一般来说偏于保守,但结果是正确的 假设检验 有时感兴趣的是某个特定猜想正确的概率,而不是对某参数的置信区间估计。比如:errorD(h1)errorD(h2)的可能性有多大? 例子,假定分别用大小为100的独立样本S1和S2测量h1和h2的样本错误率为0.30和0.20,给定 ,问errorD(h1)errorD(h2)的概率是多少?d0的概率是多少? 概率Pr(d0)等于 对d的过高估计不大于0.1的概率,也就是这个概率为 落入单侧区间 d+0.10= +0.10的概率 假设检验(2) 对于 落入单侧区间 +0.10的概率,可以通过计算 分布在该区间的概率质量来确定 落入这个单侧区间的概率 将区间 +0.10用允许偏离均值的标准差的数目来重新表示,根据式5.12可得 ?0.061,所以这一区间可近似表示为 查表5-1知,关于均值的1.64标准差对应置信度90%的双侧区间,因此这个单侧区间具有95%的置信度 因此给定观察 =0.1,errorD(h1)errorD(h2)的概率约为95%。使用统计学术语表述为:接受errorD(h1)errorD(h2)假设的置信度是95% 学习算法比较 有时感兴趣的是比较两个学习算法的性能,而不是两个具体的假设本身 如何近似地检验多个学习算法? 如何确定两个算法之间的差异在统计上是有意义的? 假定有LA和LB两个算法,要确定为了学习一特定目标函数f,平均来说那个算法更好 定义“平均”的一种合理方法是,从一基准实例分布中抽取包含n个样例的训练集合,在所有这样的集合中测量两个算法的平均性能,即 (5.14) 学习算法比较(2) 在实际的学习算法比较中,我们只有一个有限的样本D0,把它分割成训练集合S0和测试集合T0,使用下式比较两个学习到的假设的准确度

文档评论(0)

zilaiye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档