- 7
- 0
- 约2.01万字
- 约 35页
- 2016-10-19 发布于重庆
- 举报
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)第一层、了解SVM支持向量机,因其英文名为support?vector?machineSVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
1.1、分类标准的起源:Logistic回归理解SVM给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些数据分成两类。如果用x数据点,用y类别(y可以取1-1,分别代表两个不同的类),一个线性分类器的学习目标便是要在n超平面(hyper?plane),这个超平面的方程可以表示为(?wT中的T): ?
可能有读者对类别取1-1有疑问,事实上,这个1或-1的分类标准起源于logistic回归。Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。
假设函数
? ? 其中x是n维特征向量,函数g就是logistic函数。
? ? 而的图像是
? ? 可以看到,将无穷映射到了(0,1)。
? ? 而假设函数就是特征属于y=1的概率。
从而,当我们要判别一个新来的特征属于哪个类时,只需求即可,若大于0.5y=1的类,反之属于y=0类。
此外,只和有关,0,而g(z)是在于。再者,当=1,反之=0。如果我们只从出发,希望模型达到的目标就是让训练数据中y=1,而是y=0的特征。Logistic回归就是要学习得到,使得正例的特征远大于00,而且要在全部训练实例上达到这个目标。接下来,尝试把logistic做个变形。首先,将使用的结果标签y?=?0y?=?1替换为y?=?-1,y?=?1,然后将()中的替换为b,最后将后面的替换为(即)。如此,则有了。也就是说除了yy=0变为y=-1外,线性分类函数跟logistic没区别。进一步,可以将假设函数中的g(z)y=-1和y=1上。映射关系如下:
1.2、线性分类的一个例子下面举个简单的例子,如下图一个二维平面,平面上有两种不同的数据,分别用圈和叉表示。由于这些数据是线性可分的,所以可以用一条直线将这两类数据分开,这条直线就相当于一个超平面,超平面一边的数据点所对应的y-1?,另一边所对应的y全是1。
? ? 这个超平面可以用分类函数表示,当f(x)?等于0x便是位于超平面上的点,而f(x)大于0的点对应?y=1?,f(x)0的点对应y=-1的点,如下图所示:
? ??注:有的资料上定义特征到结果的输出函数,与这里定义的实质是一样的。为什么?因为无论是,还是,不影响最终优化结果。下文你将看到,当我们转化到优化的时候,为了求解方便,会把yf(x)令为1,即yf(x)是y(w^x + b),还是y(w^x - b),对我们要优化的式子max1/||w||已无影响。(有一朋友飞狗来自Mare_Desiderii,看了上面的定义之后,问道:请教一下SVM functional margin 为=y(wTx+b)=yf(x)中的Y是只取1和-1 吗?y的唯一作用就是确保functional margin的非负性?真是这样的么?当然不是,详情请见本文评论下第43楼)
当然,有些时候,或者说大部分时候数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲),这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。换言之,在进行分类的时候,遇到一个新的数据点x将x代入f(x)?f(x)小于0则将x类别赋为-1f(x)大于0将x1。接下来的问题是,如何确定这个超平面呢?从直观上而言,这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以,得寻找有着最大间隔的超平面。
1.3、函数间隔Functional margin与几何间隔Geometrical margin?在超平面w*x+b=0|w*x+b|能够表示点x到距离超平面的远近,而通过观察w*x+by的符号是否一致可判断分类是否正确,所以,可以用(y*(w*x+b))的正负性来判定或表示分类的正确性。于此,我们便引出了函数间隔(functional?margin)的概念。定义函数间隔(用表示)为:?而超平面(wb)关于T中所有样本点(xi,yi)的函数间隔最小值(其中,xy是结果标签,i表示第i个样本),便为超平面(w,?b)关于训练数据集T:
?? ??=?mini ?(i=1,...n)但这样定义的函数间隔有问题,即
您可能关注的文档
- 挂靠单位承诺书-版本.docx
- 挂靠条件及管理办法.doc
- 挂靠风险分析.docx
- 挂网锚喷技术在边坡加固工程中的应用.doc
- 指纹的观察1.doc
- 挖掘教育科研潜力创新中等职业教育.doc
- 振动单位换算表.doc
- 指挥调度方案.docx
- 据传《生化危机7》或已经开始配音制作.doc
- 捷控高清混插矩阵说明书.doc
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- 储能电站电池充放电管理制度.docx VIP
- 2024年重庆市铜梁县公开招聘城市协管员试题带答案详解.docx VIP
- 2024年重庆市奉节县公开招聘城市协管员试题带答案详解.docx VIP
- 2024《管理报告体系研究的国内外文献综述》4600字.docx VIP
- 2026-2031年中国基金市场发展前景预测研究报告.docx VIP
- (人教2024版)数学六年级下册 第4单元《比例》大单元教学设计 .pdf VIP
- 高中物理课件:向心加速度.ppt VIP
- 青岛市2025年高三一模语文试卷(含答案).pdf
- 4 数据管理能力成熟度DCMM标准解读.pptx VIP
- 《诊疗六步》.pptx VIP
原创力文档

文档评论(0)