- 1
- 0
- 约1.01万字
- 约 13页
- 2021-04-05 发布于湖南
- 举报
SVM 在数据挖掘中分类的应用研究
内容摘要 :对于数据库拥有者 ,其虽拥有并存储着海量
的数据 ,但其中有着多少价值 ,这是他们所关心的。拥有者们
想知道究竟是那些数据对他们的业务有用 ,对他们当前处理
的事情有着很大的影响 ,因此对数据的价值进行挖掘 ,以及分
类 ,拥有者们非常渴望的 ,也想得到的。本文作者从简单的分
类分析进行分析 ,论述使用支持向量机的方法探索数据的分
类。
关键词 :支持向量机 ,线性分类 ,最优超平面
一、 SVM 分类基本原理
对于两类问题的分类 ,通常可以用一个实值函数 f:X RN,
并按照这样的方式操作 :若 f(x) ≥0 时 ,则把输入向量
X=(x1,…,xn)’赋给正类 ;否则 ,让其赋给负类。本文只考虑当
f(x),x ∈X 是线性函数的情况 ,因此函数改写为 :
(1) 其中 (w,b) ∈Rn×R 是控制函数参数 ,决策规则由
sgn(f(x))给出 ,按照惯例 ,规定 sgn(0)=1。这类假设的几何解释
是 ,对于等式 定义的超平面将输入空间 X 分为两半 (见图 1)
即把输入空间的数据分成了两类。超平面是维数为 n-1 的仿
射子空间 ,它将空间分为两部分 ,这两部分对应输入中的两类。
在图 1 中的超平面是黑线 ,对应着上面的正区域和下面的负
区域 ,当 b 的值变化时 ,超平面平行于自身移动 。
定义 1(数据定义 ) 设 X 表示输入空间 ,即样本数据的集
合 ,Y表示输出域 ,即分类的标记变量。通常 X Rn,本文只针对
两类问题 ,故 Y={-1,1}。通常表示为 :
S=((x1,y1),…,(xl,yl)) (X×Y)l
其中 ,l 是样例数目。 xi 是样例 ,yi 是它们的标记 ,即分类属
性。
定义 2(线性可分 ) 训练集 S=((x1,y1),…,(xl,yl)) (X×Y)l,若
存在 w ∈Rn,b∈R,正数 ε,使得所有正类向量有 ,使得所有属
于负类的向量有 ,则称训练集 S线性可分 。
(一 )最优化问题
定义 2 (原始最优化问题 )在域 Ω Rn 上定义函数
f,gi,i=1, …,k 与 hi,i=1,…,m:
minimise f(w) w ∈ Ω
subject to gi ≤0 i=1,…,k
hi(w)=0 i=1, …,m
这里的 f(w) 成为目标函数 ,剩下的关系分别称为不等式
约束和等式约束。目标函数的最优值称为最优化问题的值。
定义 3(线性规划问题 ) 对于目标函数 ,等式或不等式约
束都是线性函数的问题称为线性规划问题。
(二 )核函数定理
在线性两类分类中 ,用原有的训练样本数据中找出一个
您可能关注的文档
最近下载
- 2026年高考全国II卷文科综合真题试卷(新课标卷)(+答案).docx VIP
- 安路科技(688107)补国产短板,突高端应用,拓新应用与技术大市场-240717-东北证券-38页.pdf VIP
- [搞笑小品剧本]上当了小品剧本.docx VIP
- 全国初中数学联合竞赛真题及答案(初二组)2015-年.pdf VIP
- 数据中心800V直流供电技术白皮书2.0.pdf
- 上海大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 上海大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 中国教育行业人才流动与薪酬水平_2025年12月.docx
- 2024全国初中数学联赛初二卷 .pdf VIP
- AIAG-VDA-SPC手册-Yellow-Volume2026年2月第一版 中文.pdf VIP
原创力文档

文档评论(0)