- 23
- 0
- 约1.05万字
- 约 54页
- 2019-03-04 发布于江苏
- 举报
第5章_评估假设
思考题 如果假设h在n=65的独立抽取样本上出现r=10个错误,真实错误率的90%置信区间是多少?95%的单侧置信区间(上界)是多少?90%的单侧区间是多少? 中心极限定理 考虑如下的一般框架 在n个独立抽取的且服从同样概率分布的随机变量Y1...Yn中观察试验值 令?代表每一变量Yi服从的未知分布的均值,并令?代表标准差,称这些变量Yi为独立同分布随机变量 为了估计Yi服从的分布的均值?,我们计算样本的均值 中心极限定理说明在n??时, 所服从的概率分布为一正态分布,而不论Yi本身服从什么样的分布 服从的分布均值为?,而标准差为 中心极限定理(2) 定理5.1(中心极限定理)考虑独立同分布的随机变量Y1...Yn的集合,它们服从一任意的概率分布,均值为?,有限方差为?2,定义样本均值为 ,当n??时,式子 服从正态分布,均值为0且标准差为1. 中心极限定理说明在不知道独立的Yi所服从的基准分布的情况下,我们可以得知样本均值 的分布形式,说明了怎样使用 的均值和方差来确定独立的Yi的均值和方差 中心极限定理说明了任意样本均值的估计量服从的分布在n足够大时可以近似为正态分布 两个假设错误率间的差异 问题: 考虑某离散目标函数的两个假设h1和h2,h1在一拥有n1个随机抽取的样例的样本S1上测试,h2在一拥有n2个从相同分布中抽取的样例的样本S2上测试,要估计这两个假设的真实错误率间的差异 d=errorD(h1)-errorD(h2) 两个假设错误率间的差异(2) 使用5.4节中描述的四个步骤来推导d的置信区间估计 确定待估计的参数,如上所述的d 定义一估计量, 是d的无偏估计量,即E[ ]=d。由于对于较大的n1和n2,errorS1(h1)和errorS2(h2)都近似遵从正态分布,两个正态分布的差仍为正态分布,方差为两个正态分布的方差的和 (5.12) 现在知道了 服从均值为d、方差为?2的正态分布,因此d的N%置信区间是 (5.13) 两个假设错误率间的差异(3) 上面分析的是h1和h2在相互独立的数据样本上测试的情况,如果在同一个样本上测试h1和h2,那么也可以使用公式5.13计算置信区间 这种情况下的方差通常小于式子5.12给出的方差,这是因为单个样本消除了两个样本组合带来的随机差异,这样,由式子5.13给出的置信区间一般来说偏于保守,但结果是正确的 假设检验 有时感兴趣的是某个特定猜想正确的概率,而不是对某参数的置信区间估计。比如:errorD(h1)errorD(h2)的可能性有多大? 例子,假定分别用大小为100的独立样本S1和S2测量h1和h2的样本错误率为0.30和0.20,给定 ,问errorD(h1)errorD(h2)的概率是多少?d0的概率是多少? 概率Pr(d0)等于 对d的过高估计不大于0.1的概率,也就是这个概率为 落入单侧区间 d+0.10= +0.10的概率 假设检验(2) 对于 落入单侧区间 +0.10的概率,可以通过计算 分布在该区间的概率质量来确定 落入这个单侧区间的概率 将区间 +0.10用允许偏离均值的标准差的数目来重新表示,根据式5.12可得 ?0.061,所以这一区间可近似表示为 查表5-1知,关于均值的1.64标准差对应置信度90%的双侧区间,因此这个单侧区间具有95%的置信度 因此给定观察 =0.1,errorD(h1)errorD(h2)的概率约为95%。使用统计学术语表述为:接受errorD(h1)errorD(h2)假设的置信度是95% 学习算法比较 有时感兴趣的是比较两个学习算法的性能,而不是两个具体的假设本身 如何近似地检验多个学习算法? 如何确定两个算法之间的差异在统计上是有意义的? 假定有LA和LB两个算法,要确定为了学习一特定目标函数f,平均来说那个算法更好 定义“平均”的一种合理方法是,从一基准实例分布中抽取包含n个样例的训练集合,在所有这样的集合中测量两个算法的平均性能,即 (5.14) 学习算法比较(2) 在实际的学习算法比较中,我们只有一个有限的样本D0,把它分割成训练集合S0和测试集合T0,使用下式比较两个学习到的假设的准确度
原创力文档

文档评论(0)