- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘中的新方法支持向量机
龙信数据(北京)有限公司数据研发部 郭泽泉
摘要:本文从至支持向量机角度对数据预测进行了研究,研究发现:在数据挖掘
中,当我们想预测某些数据的走向时往往因为数据量不足造成预测的不准确,或
者数据量过大而造成过拟合现象的发生,支持向量机方法很好的解决了高维数但
因数据量较小而无法进行预测的问题,预测的准确率较高。
关键词:支持向量机 预测 小样本
一,背景
支持向量机是统计学习理论中的一部分,它在医学,生物,军事,工业,IT
等行业有着很好的发展前景,所谓支持向量机,本质问题就是将一组数据根据他
们的不同属性进行划分,可以是两分类,也可以是多分类。在传统的分类问题中,
分类的主要目标是将可能的分类错误降到最小,即:分类错误最小化。通过核函
数以及拉格朗日算子的引入,将非线性问题转化为线性问题求解,但在一些重要
问题中,往往其中一类的数据的分类错误要比另外一类重要很多,也就是说它们
的错分类代价是不同的,这一类称为损失敏感支持向量机,本文先不介绍,只研
究最基本的支持向量机(SVM).
二:SVM 的基本思想
支持向量机(Support vector Machines)是在统计学习理论上发展起来的,利
用优化方法解决机器学习问题的有效工具。我们了解,机器学习的目的是根据所
知道的训练样本来计算某系统的输出和输入之间的依赖关系,也就是说要寻找一
个最优的 目标函数,使他能对未知训练点尽可能准确的预测,而评估好坏的标准
是使期望风险最小。支持向量机方法是根据传统经验风险最小化来代替期望风险
最小化,但这并没有理论上依据,而是提出的一种基于结构风险最小化的机器学
习方法。SVM 是从线性可分问题的最优分类超平面发展而来的,对于线性不可分
的问题只要将其映射到高维的特征空间,就成为线性可分的了,这种方法最终转
化为求一个凸二次规划问题,因此变得相对简单易行。然而对于线性不可分的情
形我们就必须考虑高维空间的内积运算问题,这就涉及到 SVM 方法的核心问题—
核函数、核函数参数的选择以及构造适合的核函数的问题。因此一般来说,支持
向量机理论有以下四个要点:(1)非线性映射 (2)对特征空间划分的最优超平面,
是 SVM 的目标;(3)支持向量(SV),是 SVM 的结果;(4)二次规划是计算 SV
的手段。支持向量机方法最初提出是用来解决机器学习中的分类问题,因此我们
就先来研究分类问题的思想:
图 1.1 分类问题
分类问题简单来说,就是根据给定的两类数据组成的集合来判断一个新的数据属
于哪一类。如图 1.1 是一个 2 维空间上的分类问题。已知在平面 χ οχ 上有 8
1 2
个点,它们分别属于正类点和负类点,正类点用“+”形来表示,负类点用“ ο”
来表示,现在平面上给出一个点 x,分类问题的目的是要推断该点属于正类还是
负类,即要寻找一个规则,把平面划分成两部分,使得该点落入正类点部分或者
负类点部分。用数学语言来描述分类问题就是:
n { }
分类问题 根据给定的训练集 Τ= ��x y �|x ∈R , y ∈ −1, 1 i = 1, ···, m�,寻找
i, i i i
n ( )
R 上的一个实值函数g x ,以便用决策函数:
( )
y = ℱ x =sgn(g(x)) (1.1)
推断任一模型 x 相对应的 Y 值。其中,sgn( ·)是符号函数:
−1, x 0;
( )
sgn x = � 1, x 0,
文档评论(0)