MachineLearning第五章课后习题.docVIP

下载本文档

20
0
约1.38千字
约 4页
2017-04-30 发布于北京
举报
版权申诉

MachineLearning第五章课后习题.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MachineLearning第五章课后习题

机器学习第五章课后习题在测试一假设h时，发现在一包含n=1000个随机抽取样例的样本s上，它出现r=300个错误。Errors(h)的标准差是什么？将此结果与第5.3.4节末尾的例子中标准差相比会得出什么结论？由题意知errors(h)=r/n=300/1000=0.3,由于r是二项分布，它的方差为np(1-p),然而p未知，用r/p代替p得出r的估计方差为1000*0.3*（1-0.3）=210，相应的标准差为sqrt(210)=14.5,这表示errors(h)=r/n中的标准差为14.5/1000=0.0145，由此得出以下结论：一般来说，若在n个随机选取的样本中有r个错误，errors(h)的标准差为sqrt(p(1-p)/n),它约等于用r/n= errors(h)来代替p. 2、如果没有更多的信息对真实错误率的评估也就是样本错误率，则真实错误率的标准差为：17/100=0.17 由95%的置信区间公式：带入数字得95%的置信区间为：0.17 +（1.96 X 0.04）. 3.如果假设h在n=65的独立抽取样本上出现r=10个错误，真实的错误率的90%的置信区间（双侧的）是多少？95%单侧置信区间（即一个上界U，使得有95%置信区间errorD(h)U）是多少？90%单侧区间是多少？解：样本数为：n = 65，假设h在n个样本上所犯的错误为r = 10，所以样本错误率为errorS(h) = = = 。于是：errorD(h)的N%的置信区间为：当N = 90时，查表5-1得：zN = 1.64，可得真实错误率的90%的置信区间为： = 0.16±0.073 95%的单侧置信区间为errorD(h)≤U，其中 90%的单侧置信区间为：errorD(h) ≤ U，其中（zN为置信度为80%的置信度时的值1.28）。 4.要测试一假设h，其errorD(h)已知在0.2到0.6的范围内，要保证95%双侧置信区间的宽度小于0.1，最小应搜集的样例数是多少？解：若使95%双侧置信区间的宽度小于0.1，则：（其中zN = 1.96），上式中因此最少应搜集的样例数为301 5.5 对随即变量 ,为待估参数,服从N(0,1) 分布,,均值为d,方差为其中:erorD(h1)-errorD(h2) 单侧置信区间下限: [d-zNs,+∞) 同理可求单侧置信区间上限: (-∞,d+ zNs],把s代入即可. 5.6 首先，先回顾一下抽样样本的数字特征，设为总体的一个样本，则： 1. 样本均值 2. 样本方差 3. 样本标准差 4. 样本(k阶)原点矩 5. 样本(k阶)中心矩对于式5.14， S是从整个样本空间上抽取的，因此样本方差样本均值式5.14的近似的N%的置信区间为：而对于式5.17 其中，S代表一个大小为且从中均匀抽取的样本。则它的近似的 N%的置信区间为：由于抽取的样本方式不同，因此样本分量之间的独立程度也有很大差别，所以不能式5.14与式5.17的近似的N%的置信区间的估计方法混为一谈。