机器学习算法汇总大全(412页).pptVIP

  1. 1、本文档共412页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习算法汇总大全(412页).ppt机器学习算法汇总大全(412页).ppt

双侧和单侧边界上述的置信区间是双侧的,有时用到单侧边界例如问题“errorD(h)至多为U的概率”,在只要限定h的最大错误率,而不在乎真实错误率是否小于估计错误率时,很自然提出这种问题由于正态分布关于其均值对称,因此,任意正态分布上的双侧置信区间能够转换为相应的单侧区间,置信度为原来的两倍由一个有下界L和上界U的100(1-?)%置信区间,可得到一个下界为L且无上界的100(1-?/2)%置信区间,也得到一个有上界U且无下界的100(1-?/2)%置信区间80%双侧置信区间均值为0,标准差为1的正态分布90%单侧置信区间推导置信区间的一般方法前面介绍的是针对一特定情况推导置信区间估计:基于独立抽取的n个样本,估计离散值假设的errorD(h)下面介绍的方法是在许多估计问题中用到的通用的方法基于大小为n的随机抽取样本的均值,来估计总体均值的问题通用的过程的步骤确定基准总体中要估计的参数p,例如errorD(h)定义一个估计量Y(如errorS(h)),它的选择应为最小方差的无偏估计量确定控制估计量Y的概率分布DY,包括其均值和方差通过寻找阈值L和U确定N%置信区间,以使这个按DY分布的随机变量有N%机会落入L和U之间思考题如果假设h在n=65的独立抽取样本上出现r=10个错误,真实错误率的90%置信区间是多少?95%的单侧置信区间(上界)是多少?90%的单侧区间是多少?中心极限定理考虑如下的一般框架在n个独立抽取的且服从同样概率分布的随机变量Y1...Yn中观察试验值令?代表每一变量Yi服从的未知分布的均值,并令?代表标准差,称这些变量Yi为独立同分布随机变量为了估计Yi服从的分布的均值?,我们计算样本的均值中心极限定理说明在n??时,所服从的概率分布为一正态分布,而不论Yi本身服从什么样的分布服从的分布均值为?,而标准差为中心极限定理(2)定理5.1(中心极限定理)考虑独立同分布的随机变量Y1...Yn的集合,它们服从一任意的概率分布,均值为?,有限方差为?2,定义样本均值为,当n??时,式子服从正态分布,均值为0且标准差为1.中心极限定理说明在不知道独立的Yi所服从的基准分布的情况下,我们可以得知样本均值的分布形式,说明了怎样使用的均值和方差来确定独立的Yi的均值和方差中心极限定理说明了任意样本均值的估计量服从的分布在n足够大时可以近似为正态分布两个假设错误率间的差异问题:考虑某离散目标函数的两个假设h1和h2,h1在一拥有n1个随机抽取的样例的样本S1上测试,h2在一拥有n2个从相同分布中抽取的样例的样本S2上测试,要估计这两个假设的真实错误率间的差异 d=errorD(h1)-errorD(h2)两个假设错误率间的差异(2)使用5.4节中描述的四个步骤来推导d的置信区间估计确定待估计的参数,如上所述的d定义一估计量,是d的无偏估计量,即E[]=d。由于对于较大的n1和n2,errorS1(h1)和errorS2(h2)都近似遵从正态分布,两个正态分布的差仍为正态分布,方差为两个正态分布的方差的和 (5.12)现在知道了服从均值为d、方差为?2的正态分布,因此d的N%置信区间是(5.13)两个假设错误率间的差异(3)上面分析的是h1和h2在相互独立的数据样本上测试的情况,如果在同一个样本上测试h1和h2,那么也可以使用公式5.13计算置信区间这种情况下的方差通常小于式子5.12给出的方差,这是因为单个样本消除了两个样本组合带来的随机差异,这样,由式子5.13给出的置信区间一般来说偏于保守,但结果是正确的假设检验有时感兴趣的是某个特定猜想正确的概率,而不是对某参数的置信区间估计。比如:errorD(h1)>errorD(h2)的可能性有多大?例子,假定分别用大小为100的独立样本S1和S2测量h1和h2的样本错误率为0.30和0.20,给定,问errorD(h1)>errorD(h2)的概率是多少?d>0的概率是多少?概率Pr(d>0)等于对d的过高估计不大于0.1的概率,也就是这个概率为落入单侧区间 <d+0.10=+0.10的概率假设检验(2)对于落入单侧区间<+0.10的概率,可以通过计算分布在该区间的概率质量来确定落入这个单侧区间的概率将区间<

文档评论(0)

***** + 关注
实名认证
文档贡献者

信息系统项目管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年08月23日上传了信息系统项目管理师

1亿VIP精品文档

相关文档