《5评估假设.pptVIP

  • 2
  • 0
  • 约1.33万字
  • 约 46页
  • 2016-12-30 发布于北京
  • 举报
2003.12.18 主要内容 学习问题的框架 有一所有可能实例的空间X,其中定义了多个目标函数,我们假定X中不同实例具有不同的出现频率。一种合适的建模方式是,假定存在一未知的概率分布D,它定义了X中每一实例出现的概率。 学习任务是在假设空间上学习一个目标概念,训练样例的每一个实例按照分布D独立地抽取,然后连同正确的目标值提供给学习器。 评估假设的问题 给定假设h和包含若干按D分布抽取的样例的数据集,如何针对将来按同样分布抽取的实例,得到对h的精度最好估计 这一精度估计的可能的误差是多少 样本错误率和真实错误率 离散值假设的置信区间 先考虑离散值假设的情况,比如: 样本S包含n个样例,它们的抽取按照概率分布D,抽取过程是相互独立的,并且不依赖于假设h n=30 假设h在这n个样例上犯了r个错误 根据上面的条件,统计理论可以给出以下断言: 没有其他信息的话,真实错误率errorD(h)最可能的值是样本错误率errorS(h)=r/n 有大约95%的可能性,真实错误率处于下面的区间内: 举例说明 数据样本S包含n=40个样例,并且假设h在这些数据上产生了r=12个错误,这样样本错误率为errorS(h)=12/40=0.3 如果没有更多的信息,对真实错误率errorD(h)的最好的估计即为0.3 如果另外收集40个随机抽取的样例S’,样本错误率errorS’(h)将与原来的errorS

文档评论(0)

1亿VIP精品文档

相关文档