Machine-Learning第5章课后习题.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习第五章课后习题

在测试一假设h时,发现在一包含n=1000个随机抽取样例的样本s上,它出现r=300个错误。Errors(h)的标准差是什么?将此结果与第5.3.4节末尾的例子中标准差相比会得出什么结论?

由题意知errors(h)=r/n=300/1000=0.3,由于r是二项分布,它的方差为np(1-p),然而p未知,用r/p代替p得出r的估计方差为1000*0.3*〔1-0.3〕=210,相应的标准差为sqrt(210)=14.5,这表示errors(h)=r/n中的标准差为14.5/1000=0.0145,由此得出以下结论:一般来说,假设在n个随机选取的样本中有r个错误,errors(h)的标准差为sqrt(p(1-p)/n),它约等于用r/n=errors(h)来代替p.

2、如果没有更多的信息对真实错误率的评估也就是样本错误率,

那么真实错误率的标准差为:17/100=0.17

由95%的置信区间公式:

带入数字得95%的置信区间为:0.17+〔1.96X0.04〕.

3.如果假设h在n=65的独立抽取样本上出现r=10个错误,真实的错误率的90%的置信区间〔双侧的〕是多少?95%单侧置信区间〔即一个上界U,使得有95%置信区间errorD(h)U〕是多少?90%单侧区间是多少?

解:样本数为:n=65,假设h在n个样本上所犯的错误为r=10,所以样本错误率为errorS(h)===。

于是:errorD(h)的N%的置信区间为:

当N=90时,查表5-1得:zN=1.64,可得真实错误率的90%的置信区间为:=0.16±0.073

95%的单侧置信区间为errorD(h)≤U,其中

90%的单侧置信区间为:errorD(h)≤U,其中〔zN为置信度为80%的置信度时的值1.28〕。

4.要测试一假设h,其errorD(h)在0.2到0.6的范围内,要保证95%双侧置信区间的宽度小于0.1,最小应搜集的样例数是多少?

解:假设使95%双侧置信区间的宽度小于0.1,那么:〔其中zN=1.96〕,

上式中

因此最少应搜集的样例数为301

5.5对随即变量,为待估参数,服从N(0,1)分布,,均值

为d,方差为

其中:erorD(h1)-errorD(h2)

单侧置信区间下限:

[d-zN?,+∞)

同理可求单侧置信区间上限:

(-∞,d+zN?],把?代入即可.

5.6首先,先回忆一下抽样样本的数字特征,设为总体的一个样本,那么:

1.样本均值

2.样本方差

3.样本标准差

4.样本(k阶)原点矩

5.样本(k阶)中心矩

对于式5.14,

S是从整个样本空间上抽取的,因此样本方差

样本均值

式5.14的近似的N%的置信区间为:

而对于式5.17

其中,S代表一个大小为且从中均匀抽取的样本。那么它的近似的

N%的置信区间为:

由于抽取的样本方式不同,因此样本分量之间的独立程度也有很大差异,所以不能式5.14与式5.17的近似的N%的置信区间的估计方法混为一谈。

文档评论(0)

199****8042 + 关注
实名认证
文档贡献者

相信自己,相信明天

1亿VIP精品文档

相关文档