参数估计与非参数估计.docx

下载文档 降价啦

16
0
约8.49千字
约 63页
2020-08-02 发布于辽宁
举报
版权申诉
保障服务

参数估计与非参数估计.docx

1、本文档共63页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第五章参数估计与非参数估计 ?参数估计与监督学习 ?参数估计理论 ?非参数估计理论 §5-1参数估计与监督学习贝叶斯分类器中只要知道先验概率，条件概率或后验概概率P((oi),P(x/a)i), P(Oj /x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(?i),P(x/(Di), pg /x) 一.参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。二.监督学习与无监督学习监督学习：在已知类别样本指导下的学习和训练，参数估计和非参数估计都属于监督学习O 无监督学习：不知道样本类别，只知道样本的某些信息去估计，女口：聚类分析。 § 5-2参数估计理论 .最大似然估计假定: 待估参数8是确定的未知量按类别把样本分成M类X】，X2, X3, ... XM 其中第i类的样本共N个 Xi =（xpx2,... xn）t 并且是独立从总体中抽取的 Xi中的样本不包含伊（诒）的信息，所以可以对每一类样本独立进行处理。第i类的待估参数丄（1，根据以上四条假定，我们下边就可以只利用第i类学习样本来估计第i类的概率密度，其它类的概率密度由其它类的学习样本来估计。 1?一般原则：第i类样本的类条件概率密度: P（Xi/?）二卩凶/卩? 3） = P（Xi/9i）原属于i类的学习样本为左二（X「X2,…XnJT上1,2,…M 求a的最大似然估计就是把p（xi/a）看成a的函数，求出使它最大时的a值。 ???学习样本独立从总体样本集中抽取的 TOC \o 1-5 \h \z ? N ? ??? p（xi I 矶?少）=p（x W）= n p（Xk | 小 k = 1 N个学习样本岀现概率的乘积 N N 取对数? i°grR（xj0）=￡iogp（x」‘） k=\ k=\ 对M求导，并令它为0： Q \k=\??? WlogP(xIO) Q \k=\ N Q -logP(Xj6/) = 0 k = \ O\ N ° 工一logP(Xj6z) = 0 k = \ 0 p A 利用上式求出罗的估值6 A 有时上式是多解的，上图有5个解，只有一个解最大即0 2.多维正态分布情况 ①丫已知，P未知，估计P P(xie)服从正态分布n 待估参数却=01 = “ 若莎1。欧(X J “)= 0 所以在正态分布时 P(xk I A) = -|log[(2^)w IE I]- 代入上式得 f )=o k = \ 1 S 艺(*-“)= 0 k=\ 才（±儿-弘）=0 才（±儿-弘）=0 k=\ A \ N LI = LI = —，X k Ntt 这说明未知均值的最大似然估计正好是训练样本的算术平均。 iy iy k=\ ②? M均未知 A. 一维情况：n二1对于每个学习样本只有一个特征的简单情况： = “1，2 = bf Xk~3ir (n=l)由上式得 TOC \o 1-5 \h \z 1 1 Xk~3i r (n=l)由上式得 ??? logP(X J 9l) = --log2^62- — 2 2弘 N 3 N 1 代入工一logHXji)二工一(Xk~3\) = ^ k=\ k=\ 31 202 + 2/￡^iogp(xj ^=i[-丄+ 202 + 2/ A A J f、即学习样本的算术平均???01二“1二万工儿即学习样本的算术平均 A A? ? A A ? ? 02 — cr r — 样本方差 ?讨论： 1?正态总体均值的最大似然估计即为学习样本的算术平均 2?正态总体方差的最大似然估计与样本的方差不同，当N较大的时候，二者的差别不大。 B?多维情况：n个特征（学生可以自行推出下式） A A估计值：01 = “ A A 估计值：01 = “ 结论：①P的估计即为学习样本的算术平均的算术nx②估计的协方差矩阵是矩阵- “人X* -p 平均（nxn阵列，nxn个值）的算术 nx 二.贝叶斯估计最大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，使概率密度分布P(Xi/G)转化为后验概率p(e/xi),再求贝叶斯估计。估计步骤：确定e的先验分布p(e),待估参数为随机变量。用第i类样本xi二(X], x2,.... Xn)t求出样本的联合概率密度分布 P(xM),它是8的函数。砂 ④求贝叶斯估^0 = ^0P{0 \ X^dO (证明略) 下面以正态分布的均值估计为例说明贝叶斯估计的过程一维正态分布:已知以,估计IJ 假