- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3概率密度函数的估计
请各位思考的问题 1、我们可以构造一个比贝叶斯规则更好的分类器吗? 2、利用贝叶斯法则构造分类器的前提条件是什么? 3、为何要估计密度以及如何估计密度? 参数PK非参数: 非参数估计的优点: (1) 在利用样本数据对总体进行估计时,不依赖于总体所属的分布总体的分布形式,尤其是当对总体的分布不是很清楚时,因而非参数模型的适用性比较广,与参数方法相比,具有较好的稳健性。 (2) 由于不必假定总体分布的具体形式,所以也无需多总体分布所具有的参数进行估计和检验。如果方法选择得当,非参数估计方法与参数估计的效果相差不多,尤其当参数估计的假设不满足时,非参数估计会比参数估计方法更为有效。 非参数估计也有其缺点: (1) 如果对总体的了解足以确定它的分布类型,非参数估计就不如参数估计那样有更强的针对性。 (2) 它没有充分利用样本所携带的关于总体的信息,因而有时它的效率会低一些,或者在相同的精度下,非参数估计比参数估计需要更大的样本。 直方图估计法作为一种非参数估计方法, 广泛被应用, 直方图方法的特点是方法简单直观, 但直方图在处多维数据时计算十分复杂, 数据的大小范围必须事先知道, 密度估计结果曲线不光滑; 因此人们开始考虑用核估计方法进行密度估计。 SILVERMAN 把直方图估计看成是一种一维非参数核密度估计方法,宽度选择对界的影响很大, 当直方图的宽度取得很小时个体特征很明显出现多峰状态( 图1a) , 但当宽度越来越大时个特征逐渐消失( 图1c) 。 因此, 如果使用直方图估计密度时宽度选择必须适中, 宽度过大或过小都可能掩盖主统计特征。图1b 较为合理。 2、核函数方法基本思想 令R是包含样本点x的一个区域,其体积为V,设有n个训练样本,其中有k落在区域R中,则可对概率密度作出一个估计: 有效性 当n固定时,V的大小对估计的效果影响很大,过大则平滑过多,不够精确;过小则可能导致在此区域内无样本点,k=0。 此方法的有效性取决于样本数量的多少,以及区域体积选择的合适。 收敛性 构造一系列包含x的区域R1, R2, …,对应n=1,2,…,则对p(x)有一系列的估计: 区域选定的两个途径 Parzen窗法:区域体积V是样本数n的函数,如: Parzen窗法和K-近邻法 3.4.1 Parzen窗方法 定义窗函数 1维数据的窗函数 概率密度函数的估计 超立方体中的样本数: 概率密度估计: 核函数的选择可以有多种: 如Parzen 窗(uniform)、三角(Triangle)、Epanechikov、四次(Quartic)、三权(Triweight)、高斯(Gauss)、余弦(Cosinus)、指数(Exponent)等。核函数的选择取决于根据距离分配各个样本点对密度贡献的不同。 通常选择什么核函数不是密度估计中最关键的因素, 因为选用任何核函数都能保证密度估计具有稳定相合性。最重要的是带宽对估计分布的光滑程度影响很大,自然地如何选择带宽将成了最重要的问题。 核函数的密度估计之所以能受到欢迎, 是因为它在带宽选择上能从数学的角度进行论证带宽最优原则。并且在独立同分布的情况下, 核估计量具有逐点渐进无偏性和一致渐进无偏性、均方相合性、强相合性、一致强相合性等。 窗函数的要求 上述过程是一个内插过程,样本xi距离x越近,对概率密度估计的贡献越大,越远贡献越小。 只要满足如下条件,就可以作为窗函数: 窗函数的形式 窗函数的宽度对估计的影响 hn称为窗的宽度 窗函数的宽度对估计的影响 识别方法 保存每个类别所有的训练样本; 选择窗函数的形式,根据训练样本数n选择窗函数的h宽度; 识别时,利用每个类别的训练样本计算待识别样本x的类条件概率密度: 采用Bayes判别准则进行分类。 1、计算最大值与最小值的差(知道这组数据的变动范围): 2、决定组距与组数(将数据分组) 组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组。 组距:指每个小组的两个端点的距离, 3、 决定分点, 画频率分布直方图的步骤 4、列出频率分布表. 5、画出频率分布直方图。 抽查某地区55名12岁男生的身高(单位:cm)的测量值如下: 128.1 144.4 150.3 146.2 140.6 126.0 125.6 127.7 154.4 142.7 141.2 142.7 137.6 136.9 132.3 131.8 147.7 138.4 136.6 136.2 141.6 141.1 133.1 142.8 136.8 133.1 144.5 14
文档评论(0)