判别与分类判别与分类.doc

下载文档 降价啦

117
0
约4.53千字
约 19页
2017-01-06 发布于贵州
举报
版权申诉
保障服务

判别与分类判别与分类.doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

判别与分类判别与分类

11.4 评估分类函数一判断分类方法效果的重要途径：计算“失误率”或“错分概率” 总错分概率适当选择和得出该量的最小值，称为最优失误率（）最优失误率其中和由式（11-7）中的（b）所决定即就是最小分类法则的失误率例11.5 （计算错分概率）条件：,并且式（11-10）中的和为多元正态密度是导出最优失误率的表达式。最小分类法则和最小分类法则在时彼此重合。由于先验概率也相等，故：：令表示为： : 但Y为正太随机变量的线性组合，因此Y的概率密度和服从一元正态分布，根据结论4.2，其均值和方差分别为但是，其中为标准正态分布的累积分布函数。类似地，最优失误率为比如说，若，则，查表得这个最优分类法则惠错误地将大约21%的对象从一个总体分配到另一个总体。原则上，样本分类函数的效果可以用真实失误率（）来评估：其中和表示由容量分别为和的样本所决定的分类域。如果使用式（11-18）中的分类函数，则区域和由满足下列不等式的的集合来定义： : 指出样本分类函数在未来样本中将如何表现。同最优失误率一样一般来说不能计算因为它依赖于未知密度函数和。但我们可以计算出另一个估计值即表观失误率表观失误率（）:训练样本中被错分的观测值所占的比例（用表观失误率这种方法度量分类效果，不依赖于母体分布的形式，并且对任意分类方法均可计算）表观失误率很容易从模糊矩阵中计算出来。对于来自的个观测值和来自的个观测值，模糊矩阵的形式为预测归属真实归属其中 =中的对象被正确地分类为的个数 =中的对象被错误地分类为的个数 =中的对象被正确分类的个数 =中的对象被错误分类的个数故表观失误率为正好是训练样本中被错分的观测值所占的比例例11.6 （计算表观失误率）考虑图11.1所示的机动割草机数据的分类域和,我们可以得到模糊矩阵为预测归属：割草机拥有者：非拥有者：拥有者：非拥有者表观失误率为表观失误率优点：具有直观上的感染力缺点：除非和足够大，否则则会低估原因：由于被用来构造分类函数的数据又被用来对这个函数进行评估可以构造比表观失误率更好的失误率估计值，而且这种估计值相对来说也比较容易计算，且不需对分布作假定，一种方法是将整个样本分为两部分：训练样本和验证样本，训练样本用来构造分类函数，验证样本则用来评估。失误率用验证样本中被错分数据的比例来确定。虽然这种方法不用同一数据既构造又评估分类函数，从而克服了偏倚问题，但它有两个主要缺陷：需要用大样本所评估的函数并非感兴趣的函数，这是因为最终几乎所有的数据都必须用于构造分类函数。如果不是这样就会损失有价值的信息。另一种方法看起来效果更好，称为拉亨布鲁克（lachenbruch）的提留方法：从组观测值开始。从这组数据中取出一个，用其余个观测值和组的个观测值构造分类函数。用第一步所构造的函数对“提留”的观测值进行分类。重复步骤1和2，直至中的所有个观测值都被分类完毕为止。令为组中被错分的提留观测值个数。对中的观测值重复步骤1至3.令为组中被错分的提留观测值个数。条件错分概率和的估计量为： (11-35)