第2章密度估计.pptVIP

下载本文档

15
0
约 33页
2016-08-11 发布于重庆
举报
版权申诉

第2章密度估计.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第2章密度估计

K近邻分类准则：对于待分样本x，找出它的k个近邻，检查它的类别，把x归于样本最多的那个类别。 K近邻分类的错误率随K↑，Pk↓,最低的错误率为Bayes分类。 P* PK 最近邻分类准则：待分样本x，找一个离它最近的样本，把x归于最近的样本一类。 Bayes P P(e) K近邻最近邻最近邻分类法则的错误率P比K近邻错误率还大，但最大不会超过贝叶斯分类器错误率的二倍。 M为类别数,P(e)为Bayes估计的错误率错误率： References Yingquan Wu“Improved k-nearest neighbor classification” Pattern Recognition 35 (2002) 2311–2318(/locate/patcog) Marco Ramoni ”Robust Bayes classifiers” Artificial Intelligence 125 (2001) 209~226(/locate/artint) * * * * * * * * 第2章概率密度函数的估计 2.1 引言 2.2 参数估计的基本概念 2.3 最大似然估计与正态分布的参数估计 2.4 Bayes估计与正态分布参数的估计 2.5 总体分布的非参数估计 2.6 分类器错误率的估计问题参数化估计：Bayesian估计。假设概率密度形式已知。实际中概率密度形式往往未知。实际中概率密度往往是多模的，即有多个局部极大值。实际中样本维数较高，且关于高维密度函数可以表示成一些低维密度函数乘积的假设通常也不成立。本节介绍非参数估计方法：能处理任意的概率分布，而不必假设密度函数的形式已知。 2.5.1总体密度函数的非参数估计非参数估计: 直接用已知类别的样本去估计总体密度分布。方法有： ①?用学习样本直接去估计类概率密度p(x|ωi)以此来设计分类器。如Parzen窗法 ②?用学习样本直接估计后验概率p(ωi|x)作为分类准则来设计分类器。如k近邻法. 2.5.1总体密度函数的非参数估计思路: 从样本集 X 估计样本空间任何一点 x 的概率密度 P(x) 如果样本集 X 全部来自于某一类别wi ,则估计的是类条件概率密度函数P( x | wi ). 如果样本集 X 全部来自于c个类别而又无法分清哪个样本来自哪个类别( mixture models),则估计的是混合概率密度函数P(x) ：总体概率密度函数. 出发点:随机变量 x 落入某一区域的概率P 2.5.1总体密度函数的非参数估计其中Р是样本x落入内的概率。如果有N个样本 x1, x2, …, xN是从密度为p(x) 的总体中独立抽取出来的,则N个样本中有个k落入区域中的概率值 Рk是二项分布的. 抽取的N个样本中, k个样本落入区域中的概率.为 : 假如: 区域足够小 2)p(x)连续由确定的概率密度函数可看作总体密度函数p(x)在区域上的估计值. 当时，估计是非常精确的则有: x p(x) R 2.5.1总体密度函数的非参数估计 x点的概率密度函数的估计值与样本数N,包含x的区域的体积V及落入V中的样本数k有关. 结论: 此方法的有效性取决于样本数量的多少，以及区域体积选择的合适。问题：V 和K如何选择呢？ 2.5.1总体密度函数的非参数估计讨论: ① 当V固定的时候N增加, k也增加,当时只反映了p(x)的空间平均估计，而反映不出空间的变化 ② N固定,体积变小当时, k=0时时所以起伏比较大,噪声比较大,需要对V进行改进. 理论上假设样本总数是无限的，可以利用极限的方法来研究密度函数的估计。设： R1 , R2 ,…, RN ,… 是一串包含 x 的区域序列对R1采用一个样本估计,对R2采用二个样本估计,对RN采用N个样本估计,… VN是RN的体积, kN是落入RN中的样本数, 若满足以下三个条件: 区域随样本数目N的缩小平滑的缩小落入区域中的样本数逐渐增多区域内的样本数和总样本数相比仍可忽略 * Parzen窗法：