- 2
- 0
- 约7.98万字
- 约 38页
- 2020-11-23 发布于江苏
- 举报
不平衡数据的距离加权分类算法的误差分析
摘 要
近年来,随着科技和信息技术的发展,高维小样本问题和不平衡数据问题越来越
受研究者的重视。支持向量机算法是最流行的分类算法之一,由于其分类边界的确定
只依赖于部分被称之为支持向量的训练样本,这导致其在处理高维小样本数据时产生
了“数据堆积”现象,从而影响了其分类效果。距离加权分类算法旨在解决支持向量
机在处理高维小样本数据时所固有的“数据堆积”现象,但该算法并不能很好地处理
不平衡数据的分类问题。带权的距离加权分类算法的提出旨在通过灵活地选择两类样
本的权重改进标准的距离加权分类算法对不平衡数据的分类效果。目前距离加权分类
系列算法已得到了广泛的应用,但其数学理论方面的研究还比较缺乏,尤其是缺乏定
量的误差分析理论。
本论文主要研究带权的距离加权分类算法,旨在统计学习理论的框架下对该算法
进行定量的误差分析。首先我们建立了加权比较定理,该定理建立了加权错分误差与
加权推广误差之间的关系,其在误差分析中起着关键作用。接着我们通过引入新的投
影算子克服了本文中目标函数无界带来的分析上的困难。最后通过概率不等式和覆盖
数等技术估计了加权推广误差,并在此基础之上建立了基于核的加权距离加权分类算
法的收敛速率。本文为处理不平衡数据的距离加权分类算法建立了定量的误差分析,
完善了该算法的误差理论。
关键词:加权的距离加权分类算法;再生核希尔伯特空间;比较定理;误差分析;
收敛速率
I
ERROR ANALYSIS OF DISTANCE WEIGHTED
DISCRIMINATION BASED ON UNBALANCE DATA
ABSTRACT
In recent years, with the development of science and information technology,
researchers pay more and more attention to high dimension and low sample size (HDLSS)
and unbalanced data problems. Support vector machine (SVM), one of the most popular
classifiers, depends on only a portion of training samples called support vectors, which
leads to the so-called data piling problem in the setting of HDLSS. The data piling
problem leads to sub-optimal performance of SVM in the setting of HDLSS. The distance
weighted discrimination (DWD) aims at solving the data piling problem which is
inherent in SVM under HDLSS setting. However, it can’t deal with the unbalanced data
very well. The weighted distance weighted discrimination (WDWD) is proposed to
improve the performance of the standard DWD by allowing flexible choice of weights
under the setting of unbalanced data. The DWD and WDWD have been widely applied to
deal with HDLSS. But to our best knowledge, there is little about its mathematical theory,
especially it is lack of quantitative convergence analysis.
This paper mainly foc
您可能关注的文档
- 中国-南非职业技术教育合作实践研究.pdf
- 股东会瑕疵决议诉讼中补正制度研究.pdf
- 论上市公司内部会计监督制度的完善.pdf
- 有限责任公司中小股东股利分配请求权保护制度研究.pdf
- 我国轻量级优秀男子举重运动员抓举技术的运动学评价体系研究.pdf
- 关联理论视角下的《青铜葵花》英译研究.pdf
- 实用侵入的方法论辩护 ——基于原则论证和案例论证.pdf
- Hom-L-R-smash积的若干研究.pdf
- 伊加特解决南苏丹冲突的制约因素研究.pdf
- 肯尼亚可持续发展教育的发展、成效及困境研究.pdf
- 多级内循环生物脱氮工艺的深度剖析与实践探索.docx
- 深圳市饮用水源地河道生态修复:实践、成效与展望.docx
- 结构疲劳与损伤分析:低周疲劳分析_14.多轴低周疲劳分析.docx
- 中等职业学校工学结合人才培养模式探究——以JX学校为例.docx
- AMDMC共聚物双水相体系制备工艺与性能研究.docx
- 结构疲劳与损伤分析:低周疲劳分析_16.低周疲劳分析的最新研究进展.docx
- 结构疲劳与损伤分析:低周疲劳分析_15.疲劳裂纹扩展分析.docx
- RenderScript异构计算框架:原理、应用与优化探索.docx
- 我国非营利组织志愿者激励机制的深度剖析与创新路径.docx
- 基于电磁诱导透明的铷原子气体中高斯线型光脉冲可控存储研究.docx
最近下载
- (人教版2026新教材)数学二年级下册新教材解读课件.pptx
- 松下sj-mr220中文使用说明书.pdf VIP
- 融优学堂明式家具赏析(中国美术学院)章节测验答案.docx
- 2025年铁道统计公报 .pdf VIP
- 北汽新能源EU5维修手册OBC.pptx VIP
- ISO10292-1994建筑玻璃.多层玻璃稳态U值(热透过率)的计算.PDF VIP
- 北汽新能源EU5维修手册-电路图.pdf VIP
- TCNEA-核电工程班组建设评价指南及编制说明.pdf VIP
- 基层行低利率环境对金融增加值的影响分析.pdf VIP
- 2025-2026学年小学音乐鲁教版五四学制2024一年级下册-鲁教版(五四学制)(2024)教学设计合集.docx
原创力文档

文档评论(0)