概率密度估计打印.ppt

下载文档

1
0
约1.04万字
约 96页
2025-02-06 发布于广东
举报
版权申诉
保障服务

概率密度估计打印.ppt

1、本文档共96页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一个kn—近邻估计例子对两个一维概率分布的一些kn近邻估计，一个高斯函数，一个是三角形分布，当n值为有限时，估计结果显得非常“粗糙”和“崎岖不平”3.2非参数估计第94页,共96页，星期六，2024年，5月kn的选择：渐进收敛容易保证；有限样本性质、最小平方误差与Parzen窗几乎相同。3.2非参数估计第95页,共96页，星期六，2024年，5月3.3说明高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。概率密度函数包含了随机变量的全部信息，是导致估计困难的重要原因。进行模式识别并不需要利用概率密度的所有信息，只需要求出分类面。先估计概率密度，再进行分类，可能走了“弯路”。第96页,共96页，星期六，2024年，5月一个向量x落在区域R中的概率为3.2非参数估计P是概率密度函数p(x)的平滑的(或者取平均的)版本。可以通过估计概率P来估计概率密度函数p。假设n个样本x1，……，xn都是根据概率密度函数p(x)独立同分布(i.i.d.)的抽取而得到的。第62页,共96页，星期六，2024年，5月其中k个样本落在区域R中的概率服从二项式定理：3.2非参数估计k的期望值为第63页,共96页，星期六，2024年，5月k的二项式形式的分布在均值附近有非常显著的波峰。因此，比值k/n就是概率P的一个很好的估计。当样本个数n非常大时估计将非常准确。如果假设p(x)是连续的，并且区域R足够小，以至于在这个区间中p几乎没有变化，那么有3.2非参数估计第64页,共96页，星期六，2024年，5月其中x为一个点，而V则是区域R所包含的体积。得到p(x)的估计为3.2非参数估计第65页,共96页，星期六，2024年，5月区域R的体积R中的点固定越来越多在概率上收敛p(x)的平均估计R足够小3.2非参数估计第66页,共96页，星期六，2024年，5月估计x点的密度构造一串包括x的区域序列R1,R2,…,Rn,…对R1，采用一个样本估计对R2，采用两个样本估计……设Vn是Rn的体积，kn是落入Rn中的样本数p(x)的第n次估计3.2非参数估计第67页,共96页，星期六，2024年，5月满足pn(x)收敛于p(x)^→p(x)3.2非参数估计第68页,共96页，星期六，2024年，5月有两种经常采用的获得这种区域序列的途径。其中之一是根据某一个确定的体积函数来逐渐收缩一个给定的初始区间。第二种方法是确定kn为n的某个函数，这样，体积就必须逐渐生长，直到最后能包含进x的kn个相邻点，这就是kn-近邻法”。这两种方法最终都能够收敛，但是却很难预测它们在有限样本情况下的效果。3.2非参数估计第69页,共96页，星期六，2024年，5月这两种情况中的序列都是随机变量，它们一般会收敛，这样就能估计出测试样本点处的真正的概率密度函数。3.2非参数估计根据某个函数逐渐缩小区域面积缩小区域面积的方式依赖于样本点的第70页,共96页，星期六，2024年，5月两种非参数方法：Parzen窗法：使区域序列的体积Vn按n的某个函数随n的增大的关系不断缩小，如Vn＝V1/√n，而对kn和kn/n加以限制使^pn(x)收敛于p(x)3.2非参数估计第71页,共96页，星期六，2024年，5月两种非参数方法：kn近邻估计：使kn为n的某个函数随N的增大而变大，如kn＝√n，而Vn的选取使相应的Rn是只包含kn个近邻点的最小区域，其体积可以作为x点密度估计时的最小Vn。3.2非参数估计第72页,共96页，星期六，2024年，5月两种常用的核(窗)函数：均匀核(窗)：x=(x1,x2,…,xd)∈Rd-1/21/23.2非参数估计第73页,共96页，星期六，2024年，5月正态（高斯）核：3.2非参数估计-220核函数要满足概率密度函数的条件。第74页,共96页，星期六，2024年，5月Parzen窗法：把核函数看作“窗”，根据样本x1,x2,…,xn，若xi落入以x为中心，以hn为棱长的超立方体Rn中，则计数为1，否则为0，则落入立方体Rn中的样本数3.2非参数估计第75页,共96页，星期六，2024年，5月根据hN是控制“窗”宽度的参数，根据样本的数量选择。这就是Parzen窗方法。叠加函数叠加基函数使用kn个以样本xi为中心的窗函数叠加对x处的概率密度进行估计。样本较密集的区域上概率密度值较大。3.2非参数估计第76页,共96页，星期六，2024年，5月窗函数一般应满足下面的条件：保证非负保证3.2非参