不平衡数据的距离加权算法的误差分析.pdfVIP

  • 2
  • 0
  • 约7.98万字
  • 约 38页
  • 2020-11-23 发布于江苏
  • 举报

不平衡数据的距离加权算法的误差分析.pdf

不平衡数据的距离加权分类算法的误差分析 摘 要 近年来,随着科技和信息技术的发展,高维小样本问题和不平衡数据问题越来越 受研究者的重视。支持向量机算法是最流行的分类算法之一,由于其分类边界的确定 只依赖于部分被称之为支持向量的训练样本,这导致其在处理高维小样本数据时产生 了“数据堆积”现象,从而影响了其分类效果。距离加权分类算法旨在解决支持向量 机在处理高维小样本数据时所固有的“数据堆积”现象,但该算法并不能很好地处理 不平衡数据的分类问题。带权的距离加权分类算法的提出旨在通过灵活地选择两类样 本的权重改进标准的距离加权分类算法对不平衡数据的分类效果。目前距离加权分类 系列算法已得到了广泛的应用,但其数学理论方面的研究还比较缺乏,尤其是缺乏定 量的误差分析理论。 本论文主要研究带权的距离加权分类算法,旨在统计学习理论的框架下对该算法 进行定量的误差分析。首先我们建立了加权比较定理,该定理建立了加权错分误差与 加权推广误差之间的关系,其在误差分析中起着关键作用。接着我们通过引入新的投 影算子克服了本文中目标函数无界带来的分析上的困难。最后通过概率不等式和覆盖 数等技术估计了加权推广误差,并在此基础之上建立了基于核的加权距离加权分类算 法的收敛速率。本文为处理不平衡数据的距离加权分类算法建立了定量的误差分析, 完善了该算法的误差理论。 关键词:加权的距离加权分类算法;再生核希尔伯特空间;比较定理;误差分析; 收敛速率 I ERROR ANALYSIS OF DISTANCE WEIGHTED DISCRIMINATION BASED ON UNBALANCE DATA ABSTRACT In recent years, with the development of science and information technology, researchers pay more and more attention to high dimension and low sample size (HDLSS) and unbalanced data problems. Support vector machine (SVM), one of the most popular classifiers, depends on only a portion of training samples called support vectors, which leads to the so-called data piling problem in the setting of HDLSS. The data piling problem leads to sub-optimal performance of SVM in the setting of HDLSS. The distance weighted discrimination (DWD) aims at solving the data piling problem which is inherent in SVM under HDLSS setting. However, it can’t deal with the unbalanced data very well. The weighted distance weighted discrimination (WDWD) is proposed to improve the performance of the standard DWD by allowing flexible choice of weights under the setting of unbalanced data. The DWD and WDWD have been widely applied to deal with HDLSS. But to our best knowledge, there is little about its mathematical theory, especially it is lack of quantitative convergence analysis. This paper mainly foc

文档评论(0)

1亿VIP精品文档

相关文档