svm在数据挖掘中分类的应用研究.pdfVIP

  • 1
  • 0
  • 约1.01万字
  • 约 13页
  • 2021-04-05 发布于湖南
  • 举报
SVM 在数据挖掘中分类的应用研究 内容摘要 :对于数据库拥有者 ,其虽拥有并存储着海量 的数据 ,但其中有着多少价值 ,这是他们所关心的。拥有者们 想知道究竟是那些数据对他们的业务有用 ,对他们当前处理 的事情有着很大的影响 ,因此对数据的价值进行挖掘 ,以及分 类 ,拥有者们非常渴望的 ,也想得到的。本文作者从简单的分 类分析进行分析 ,论述使用支持向量机的方法探索数据的分 类。 关键词 :支持向量机 ,线性分类 ,最优超平面 一、 SVM 分类基本原理 对于两类问题的分类 ,通常可以用一个实值函数 f:X RN, 并按照这样的方式操作 :若 f(x) ≥0 时 ,则把输入向量 X=(x1,…,xn)’赋给正类 ;否则 ,让其赋给负类。本文只考虑当 f(x),x ∈X 是线性函数的情况 ,因此函数改写为 : (1) 其中 (w,b) ∈Rn×R 是控制函数参数 ,决策规则由 sgn(f(x))给出 ,按照惯例 ,规定 sgn(0)=1。这类假设的几何解释 是 ,对于等式 定义的超平面将输入空间 X 分为两半 (见图 1) 即把输入空间的数据分成了两类。超平面是维数为 n-1 的仿 射子空间 ,它将空间分为两部分 ,这两部分对应输入中的两类。 在图 1 中的超平面是黑线 ,对应着上面的正区域和下面的负 区域 ,当 b 的值变化时 ,超平面平行于自身移动 。 定义 1(数据定义 ) 设 X 表示输入空间 ,即样本数据的集 合 ,Y表示输出域 ,即分类的标记变量。通常 X Rn,本文只针对 两类问题 ,故 Y={-1,1}。通常表示为 : S=((x1,y1),…,(xl,yl)) (X×Y)l 其中 ,l 是样例数目。 xi 是样例 ,yi 是它们的标记 ,即分类属 性。 定义 2(线性可分 ) 训练集 S=((x1,y1),…,(xl,yl)) (X×Y)l,若 存在 w ∈Rn,b∈R,正数 ε,使得所有正类向量有 ,使得所有属 于负类的向量有 ,则称训练集 S线性可分 。 (一 )最优化问题 定义 2 (原始最优化问题 )在域 Ω Rn 上定义函数 f,gi,i=1, …,k 与 hi,i=1,…,m: minimise f(w) w ∈ Ω subject to gi ≤0 i=1,…,k hi(w)=0 i=1, …,m 这里的 f(w) 成为目标函数 ,剩下的关系分别称为不等式 约束和等式约束。目标函数的最优值称为最优化问题的值。 定义 3(线性规划问题 ) 对于目标函数 ,等式或不等式约 束都是线性函数的问题称为线性规划问题。 (二 )核函数定理 在线性两类分类中 ,用原有的训练样本数据中找出一个

文档评论(0)

1亿VIP精品文档

相关文档