- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.支持向量机(回归)
3.1.1 支持向量机
支持向量机(SVM)是美国Vapnik教授于1990年代提出的,2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器,是构造分类规则的通用方法。SVM方法的贡献在于,它使得人们可以在非常高维的空间中构造出好的分类规则,为分类算法提供了统一的理论框架。作为副产品,SVM从理论上解释了多层感知器的隐蔽层数目和隐节点数目的作用,因此,将神经网络的学习算法纳入了核技巧范畴。
所谓核技巧,就是找一个核函数使其满足,代替在特征空间中内积的计算。因为对于非线性分类,一般是先找一个非线性映射将输入数据映射到高维特征空间,使之分离性状况得到很大改观,此时在该特征空间中进行分类,然后再返会原空间,就得到了原输入空间的非线性分类。由于内积运算量相当大,核技巧就是为了降低计算量而生的。
特别, 对特征空间为Hilbert空间的情形,设是定义在输入空间上的二元函数,设中的规范正交基为。如果
,
那么取即为所求的非线性嵌入映射。由于核函数的定义域是原来的输入空间,而不是高维的特征空间。因此,巧妙地避开了计算高维内积所需付出的计算代价。实际计算中,我们只要选定一个,并不去重构嵌入映射。所以寻找核函数(对称且非负)就是主要任务了。满足以上条件的核函数很多,例如
可以取为d-阶多项式:,其中为固定元素。
可以取为径向函数:,其中为固定元素。
可以取为神经网络惯用的核函数:,其中为固定元素。
一般地,核函数的存在性只依赖于如何寻找一个平方收敛的非负序列。这样的序列在空间的正锥中的序列都满足。但哪一个最佳还有待于进一步讨论。经验表明,分类问题对于核函数不太敏感。当然,重新构造一个核函数也不是一个简单的事。因此,实际操作中往往就在上述三类中挑出一个来使用就可以了。
支持向量机的结构示意图可以表示如下:
图1 支持向量机结构示意图
其中输入层是为了存贮输入数据,并不作任何加工运算;中间层是通过对样本集的学习,选择;最后一层就是构造分类函数
整个过程等价于在特征空间中构造一个最优超平面。
支持向量机的作用之一就是分类。根据分类的任务,可以划分为一分类,二分类以及多分类。对于多类分类问题,可以用若干种手法将其分解为若干个二分类问题叠加。因此,为了实现支持向量机分类的算法,我们只要针对二分类,从头来给出它的数学原理。
3.1.2 支持向量机分类的数学原理
设样本集为,我们的目的是寻找一个最优超平面使得标签为+1 和-1的两类点不仅分开且分得间隔最大。
当在维欧几里德空间中就可以实现线性分离时,也即存在超平面将样本集按照标签-1与+1分在两边。由于超平面在维欧几里德空间中的数学表达式是一个线性方程 ,其中,为系数向量,为维变量,内积,为常数。空间中点到超平面的距离。欲使得最大,等价于最小。于是,得到一个在约束条件下的极值问题
引入Lagrange乘子,可以解得关于该参变量的方程
称之为Lagrange对偶函数。其约束条件为
在此约束条件之下, 使得达到最大值的的许多分量为0,不为0的 所对应的样本就称为支持向量。这就是支持向量的来历。
当在输入空间不能实现线性分离,假设我们找到了非线性映射将样本集映射到高维特征空间中,此时我们考虑在中的集
的线性分类,即在中构造超平面,其权系数满足类似的极值问题。由于允许部分点可以例外,那么可以引入松弛项,即改写为:
最终转化为一个二次型在约束条件下的二次规划问题:
其中,,,为矩阵。 是核函数。
一分类问题是一个极端情形但却又是非常有用的,它可以表示为如下数学模型:设为空间的有限观测点,找一个以为心,以为半径的包含这些点的最小球体。因此,一分类是对于求一个化合物成分的最小包络曲面的最佳方法。与前面完全相同的手法,设是由某个核函数导出的从输入空间到特征空间中的嵌入映射,最后可以得到二次规划问题
其中,, , 为矩阵。是核函数。此时
此时几乎所有的点满足。参数起着控制落在球外点的数目,变化区间为:.
3.1.3基于线性规划的SVM分类
由于分类问题的自然推理过程都会归结到二次规划求解,计算复杂度相对较高。如果能将其简化为线性规划而且没有较大的误差, 那么计算量将急速减少。于是提出了基于线性规划的SVM分类。此方法经过数学严格推理,是合理的(因为涉及泛函的知识较多,推理过程放在附录中)。因此产生了基于线性规划一分类、二分类、多分类。此处,我们仅给出基于线性规划的SVM分类的最终形式:
解出与则得出决策函数以及阈值。参数控制着满足条件的样本数量。特别核函数取为径向函数时,参数越小,精度越高。 另外,要提醒注意的是,在求解大规模分类问题得SVM算法实现时,需要以下辅助手段:
停机准则:由于分类问题等价于求对偶问题在约束条件下的
您可能关注的文档
- 操作系统模拟unix文件系统实验.doc
- 操作系统进出口预算表的核算过程.doc
- 攀枝花市块菌产业建设项目建议书攀西特色生物资源开发项目.doc
- 支付结算征文.doc
- 支出费用成本之间的关系研究.doc
- 支票、本票、汇票的联系和区别(完整列表).doc
- 支行货币押运突发事.doc
- 收购股权中介服务合同(样本).doc
- 改进型控制棒驱动机构电源研究.docx
- 放射影像设备厂家你知道多少.doc
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
文档评论(0)