- 18
- 0
- 约2.94千字
- 约 6页
- 2020-10-08 发布于山东
- 举报
支持向量机算法介绍
众所周知,统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的
有效工具,已随着计算机硬件和软件技术的发展得到了广泛的应用。
但多年来我们也受制于一个难题:传统的模式识别或人工神经网络方法都要求有较多
的训练样本,而许多实际课题中已知样本较少。对于小样本集,训练结果最好的模型不一定是预报能力最好的模型。因此,如何从小样本集出发,得到预报(推广)能力较好的模
型,遂成为模式识别研究领域内的一个难点,即所谓 “ 小样本难题 ” 。支持向量机
( support vector machine ,简称 SVM )算法已得到国际数据挖掘学术界的重视,并在语
音识别、文字识别、 药物设计、组合化学、时间序列预测等研究领域得到成功应用。
1、线性可分情形
SVM 算法是从线性可分情况下的最优分类面( Optimal Hyperplane )提出的。所谓最
优分类面就是要求分类面不但能将两类样本点无错误地分开,而且要使两类的分类空隙最大。
设线性可分样本集为
( xi
, yi )
, i
1L, , n, x
Rd ,
y
{ 1, 1} , d维空间中线性判
别函数的一般形式为
g x
wT x
b ,
分类面方程是
wT
x
b
0 ,
我们将判别函数进行归一化,使两类所有样本都满足
g x
1,此时离分类面最近
的样本的 g x 1,而要求分类面对所有样本都能正确分类,就是要求它满足
yi ( wT xi b) 1 0,i 1,2,L , n 。 ( 4)
式( 4)中使等号成立的那些样本叫做支持向量( Support Vectors )。两类样本的分类空
隙( Margin )的间隔大小:
Margin = 2 / w (5)
因此,最优分类面问题可以表示成如下的约束优化问题,即在条件( 4)的约束下,求函
数
w
1 w 2
1 ( wT w) (6)
2
2
的最小值。为此,可以定义如下的
Lagrange函数:
n
L( w,b,a)
1 wT w
ai [ yi (wT xi
b)
1]
(7)
2
i 1
其中, ai 0 为 Lagrange系数,我们的问题是对
w和 b求 Lagrange函数的最小值。把式
(7)分别对 w、b、 ai 求偏微分并令它们等于
0,得:
L
n
0
w
ai yi
xi
w
i 1
L
n
0
ai yi
0
b
i 1
L
0
[
(
T
)
1]
0
ai
ai
yi
w xi
b
以上三式加上原约束条件可以把原问题转化为如下凸二次规划的对偶问题:
n
ai
1 n
n
T
x j
max
ai a j yi y j xi
i
1
2 i 1 j 1
s.t
ai
0,i
1,L
, n
(8)
n
ai yi
0
i
1
这是一个不等式约束下二次函数机制问题,存在唯一最优解。若
ai* 为最优解,则
n
w*
ai*
yi xi
(9)
i 1
ai* 不为零的样本即为支持向量,因此,最优分类面的权系数向量是支持向量的线性组合。
b* 可由约束条件 ai [ yi (wT xi b) 1] 0 求解,由此求得的最优分类函数是 :
n
f x sgn(( w* )T x b* ) sgn( ai* yi xi* x b* ) (10)
i 1
sgn()为符号函数。
2、线性不可分情形
当用一个超平面不能把两类点完全分开时(只有少数点被错分),可以引入松弛变
量 i
( i ≥ 0, i
1,L , n ),使超平面 wT x
b
0 满足:
yi (wT xi b)
1
i
(11)
当0
i 1时样本点 xi 仍旧被正确分类,而当
i
≥ 1时样本点 xi 被错分。为此,引入以下目
标函数:
1 wT w
n
(w, )
Ci (12)
2
i 1
其中 C是一个正常数,称为惩罚因子,此时
SVM 可以通过二次规划(对偶规划)来实现:
max
n
1
n
n
ai a j
yi y j
T
xj
ai
2 i 1
xi
i 1
j
1
s.t
0
ai
C ,i
1,L
, n
(13)
n
ai yi
0
i
1
3、支持向量机( SVM )的核函数
若在原始空间中的简单超平面不能得到满意的分类效果,则必须以复杂的超曲面作
为分界面, SVM 算法是如何求得这一复杂超曲面的呢?
首先通过非线性变换 将输入空间变换到一个高维空间,然后在这个新空间中求取
最优线性分类面,而这种非线性变换是通过定义适当的 核函数 (内积函数)实现的,令:
K (xi , xj ) ( xi ) ( x j ) (14)
用核函数 K ( xi , xj )
您可能关注的文档
- 主谓一致对比练习100题(推荐文档).doc
- 主谓一致参考答案解析(推荐文档).doc
- 中心小学义务教育均衡发展实施方案(精品文档).doc
- 中考作文必备句型(精品文档).doc
- 中考英语阅读记叙文练习(推荐文档).doc
- 中考英语完形填空解题技巧与专项训练10篇(推荐文档).doc
- 中国国家地理杂志历年明细和分类(精品文档).doc
- 治疗失眠的中成药有哪些【专业知识文档】.doc
- 镇静催眠药的常见不良反应【推荐下载】.doc
- 早上起来一嘴臭口水是什么原因?【专业知识文档】.doc
- 抚顺石化工贸中心资金控制体系优化研究:理论、实践与创新.docx
- 探秘中华通草蛉滞育发育:生殖生物学特征与调控机制.docx
- 稀有鮈鲫受精机制及影响因素的深度剖析.docx
- 从美国强制反诉制度探寻我国民事诉讼反诉制度的革新路径.docx
- 中国职业足球管理体制:演进、困境与突破路径探究.docx
- 论我国网上个体经营活动法律规制的完善与实践.docx
- 论取保候审期间脱逃后又归案的自首认定困境与出路.docx
- 动调陀螺赋能双轴稳定平台控制系统的关键技术与优化策略研究.docx
- 论我国犯罪被害人国家补偿制度的构建与完善:法理、实践与发展路径.docx
- 光纤光栅传感监控软件:原理、应用与创新发展研究.docx
最近下载
- 2026年春教科版(新教材)小学科学二年级下册(全册)教学设计(附目录P91).pdf
- 2026年山东劳动职业技术学院单招(计算机)考试备考题库及答案解析(夺冠).docx VIP
- 超实用近五年(2021-2025)高考英语真题分类汇编:专题17 语法填空(全国通用)(原卷版).docx VIP
- 时尚流行文化解读.pptx VIP
- 文学类文本阅读青辰《梨花开了》【2023年四川省凉山州中考语文真题】.docx VIP
- 《毛笔楷书基础教程》职业院校书法课程全套教学课件.pptx
- (完整版)交管12123学法减分考试题库及答案.doc
- 2026年山东劳动职业技术学院单招(计算机)考试参考题库附答案.docx VIP
- 2025年教师资格考试高中学科知识与教学能力思想政治试卷与参考答案.docx VIP
- 基建项目财务咨询方案.docx VIP
原创力文档

文档评论(0)