- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第12章非参数判别分析与非参数聚类(非参数统计西南财大)
PAGE
PAGE 8
核函数方法和近邻估计
第十二章 非参数判别分析与非参数聚类
第一节 非参数判别分析
一、引言
关于判别分析的一般概念我们在多元统计分析中已经详细的讨论,在那里我们采用了距离判别、贝叶斯判别和典型判别法。这些判别法都需要估计总体的参数,而贝叶斯判别时,我们还指定了总体服从正态分布。在非参数统计中,不对变量的分布做任何假设,这里主要有两种方法,BAYES方法和近邻方法进行非参数判别分析。
设有M个类,用Y记一具体的对象所属的类,Y可能的取值为。设有了n个经过明确判定的样本,第i个样本的指标为,所属的类为,n个样本记,常称为“训练样本”。这一名称的来由使因为日后进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。
非参数方法是基于组概率密度函数的非参数估计。每组的非参数密度估计核产生的分类准则采用核方法或k最近邻方法。
马氏距离或欧氏距离用来确定样品的接近程度。
二、核方法
1、Bayes方法概念
设有M个总体分别具有概率分布密度,出现M个总体的先验概率分别为,,。
贝叶斯判别的规则将样品判给最大的类,即
如果,判
2、Bayes方法和密度函数估计的联系
在非参数判别中,通常完全未知,有时未知。一个直观的想法是直接估计和,然后将得到的估计代入判别规则中进行计算。
具体的步骤是:如果已知某事物可分为M个总体:…,,该事物的特性P个指标描述,在进行分析之前,已观察到在各个总体的样本。
, …, …,
为维密度函数,为窗宽,总体密度函数的一个核估计可以表示为:
其中,
将估计出的先验概率和密度函数代入判别规则中,得到后验概率,进行比较。使用该估计需要一个前提,即全部训练样本是从大的总体中随机抽样取得的,否则便没有意义了。
现设当时,X的条件分布有概率密度函数,,则的边缘分布为。已知时,的条件概率为
判别规则为 ,判
,判
三、K近邻方法
1、概念
记样本,要由样品指标x去判别其所属的类Y,Y可能的取值为。
将按其与X的距离排列,如,距离相等时,按足标小的在前的原则处理。指定一个介于1到n之间的自然数k,挑出最接近X的k个,即,与他们匹配的Y是。
定义:以记为中等于的个数。定义判别函数如下:若是中的唯一最大者,则定义;若中有若干个同时达到最大者,比方说是,则再按等概率在中确定一个为。
2、近邻方法与概率密度的最近邻估计的关系
用近邻方法估计估计密度函数的方法是,先固定一个介于1到n之间的自然数,对任何,计算,然后的密度函数估计和先验概率的估计为:
判别规则为:
,判
,
等价的判别函数
,则判
四、SAS/DISCRIM过程中的非参数判别的选项
非参数判别方法是基于组概率密度的非参数估计。每组的非参数密度估计和产生的分类准则采用核方法和K最近邻方法得到。
马氏和欧氏距离能够用来确定接近的程度。采用k最近邻方法时,马氏距离基于合并协方差阵;采用核方法时,马氏距离基于单个组那方差矩阵或合并协方差阵。
实际上某个检验样品的归类基于由训练集得到的估计组密度。从估计密度,x术语各组的喉炎概率得到评估。观测x盼归第t组是因为p(t/x)最大。
METHOD=NPAR——采用非参数判别方法。
——为最近邻方法指定一个值。观测x分如一个组基于从x的k个最劲力得到的信息。
——为核密度估计指定一个半径r。
注意,不能同时选用K=选项与R=选项。
KERNEL=BIWEIGHT\BIW或 EPANECHNIKOV\EPA或TRIWEIGHT\TRI或UNIFORM\UNI——为估计组密度指定一个核密度,缺省为KERNEL=UNIFORM\UNI。
METRIC=DIAGONAL|FULL|IDENTITY——为平方距离的计算指定度量。缺省为METRIC= FULL。
第二节 非参数聚类分析
非参数聚类过程利用某种基于非参数密度估计的算法对观测得到的数据进行分类。Sas的modeclus模块产生的数据集包括密度估计和聚类的结果,一系列的统计量,其中包括近似的p值,以及用不同的算法,不同的光滑参数和不同的显著性水平得到的结果。
我们知道,密度最大的数是众数,及mode。非参数聚类方法,类是由概率密度函数的众数定义的,一个类大致可以定义为概率密度函数的一个局部最大点附近的区域。给定一个足够大的样本,非参数分析方法可以不同大小,不同分散程度和形状极不规则的类。非参数聚类分析方法对找出具有相同大小和分散程度的类效果也好。
一、问题的引入
如下虚构的数据进行分类
data a;
inout x y @@;
cards;
18 18 20 22 21 20 12 23 17 12 23 25 25 20
16 27 20 13 28 22 80 20 75 19 77
您可能关注的文档
- 第11章货币政策的作用机制与效果检验(中央银行学,王广谦)习题.doc
- 第11讲工程问题学生版.doc
- 第11课《寻找幸运花瓣》教案.doc
- 第11课教育产业的勃兴学生复习资料.doc
- 第11部分样卷及样卷答案2.doc
- 第126648号2009学年第1学期八年级英语期中素质检测卷(含考卷答题卡听力材料答案).doc
- 第121170号1.6_1.7第一章拓展提高题.doc
- 第12单元教学计划.doc修改教案.doc
- 第12周第2课时课题降水的变化与分布.doc
- 第12册写字课教案.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)