SVM那些事.docVIP

下载本文档

7
0
约3.18千字
约 7页
2017-08-08 发布于重庆
举报
版权申诉

SVM那些事.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SVM那些事.doc

SVM那些事-A Practical Guide to Support Vector Classification的翻译花了一下午的时间，把这个东西翻译了大部分，想来对很多人也是有用的吧对支持向量分类的实践指导 1. 介绍 SVM是数据分类的一个很有用的工具。即使人们认为它比神经网络容易使用，但对不熟悉SVM的人开始的时候也会得到不满意的结果。在这里我们手把手的指导您得到可靠的结果。注意这个指导并不是给SVM研究者提供的，我们也不能保证最好的正确率。我们同样也不想解决挑战性的或者复杂的问题。我们的目的是给SVM新手们一个指导来快捷方便的获得可接受的结果。虽然使用者们不需要理解SVM的基础理论，但是，为了解释我们的流程，我们要简要的介绍一下SVM基础。一个分类任务通常包括训练和测试包含一些数据事例的数据。训练集中的每一个实例包括一个目标值（类标识）和若干属性。SVM的目的就是建立一个模型来预测测试集中数据实例的目标值，而测试集中只提供了属性。已知一个训练集由实例和标识对()组成，，SVM需要解决下面这个优化问题： Subject to 这里训练向量被函数映射到一个更高维的空间。然后在这个更高维空间中SVM找到一个具有最大间隔的线形分类超平面。C0时出现错误的惩罚参数。另外，被叫做核函数。虽然研究者提供了新的核，初学者应该能在SVM书籍上找到下面的四个基本的核函数： Linear: Polynomial: RBF: Sigmoid: 这里，，r，和d是核参数。 1.1 现实世界中的例子表1呈现了某个现实的例子。这些数据集都来自于我们那些一开始不能获得可靠正确率的使用者。使用这个指导中说明的流程，我们帮助他们得到更好的效果。具体细节可见附录A。这些数据集位于.tw/~cjlin/papers/guide/data/ 1.2 建议的流程很多初学者使用下面的流程： l 转变数据到SVM软件允许的格式 l 随机的试验一些核函数和参数 l 测试我们建议初学者试试首先下面的流程： l 转变数据到SVM软件允许的格式 l 简单的对数据进行规格化 l 考虑RBF核 l 使用交叉验证来寻找最好的参数C和gamma l 使用最好的C和gamma来训练整个训练集下面的章节里我们具体的讨论这个流程。 2 数据处理 2.1 分类特征 SVM需要每个数据实例都表现为一个实数向量。因此，如果有分类特征，我们首先必须把他们转化为数字。我们建议用m个数来表示一个m类的属性。M个数中只有一个数是1，其他的都是0。例如，一个分三类的属性，比如{红，绿，蓝}，可以被表示为（0，0，1），（0，1，0）和（1，0，0）。我们的经验表明如果一个属性中值的数目不太多的话，这种编码很可能比使用一个单独的数去代表一个绝对属性要稳定。 2.2 规格化在应用SVM之前的规格化非常重要。Sarle解释了为什么在使用神经网络的时候要规格化数据，大部分他的考虑同样应用于SVM 主要优点是避免在大数值范围的属性支配那些在相对较小数值范围的属性。另一个优点是避免计算中在数字上的困难。因为核函数的值通常依赖于特征向量的内积，比如线形核和多项式核，大属性值可能会导致数值上的问题。我们建议线性的规格化每个属性到[-1，+1]或者[0，1]的范围。当然我们必须用同样的方法在测试前去规格化测试数据。例如，假如我们规格化了训练集的第一个属性从[-10，+10]到[-1，+1]。如果测试集的第一个属性位于[-11，+8]，我们必须规格化测试数据到[-1.1,+0.8]。 3 模型选择虽然第一节里只提到了4个核，我们还是必须决定首先试验哪个。然后惩罚参数C和核参数才被选择。 3.1 RBF核我们建议通常下RBF核都是合理的第一选择。RBF核能够非线性的将样本映射到更高维的空间，所以，不像线性核，它能够处理类标识和属性的关系是非线性的情况。另外，线性核是RBF核的一种特殊情况，正如Keerthi和Lin指出的，线性核的惩罚参数是时和RBF核取某个参数（C，）是一样的。再者，sigmoid核在某些参数情况下和RBF核类似。第二个原因是超参数的数目，这个数目会影响模型选择的复杂度。多项式核比RBF核有更多的超参数。最后，RBF核有更小的数值困难。一个要点是当degree很大时，，相比下多项式核的值可能会无穷或者是0。再者，我们必须注意到在某些参数下sigmoid核是不可用的。然而，有一些情况RBF核是不合适的。特殊情况下，当特征数目很大时，可能只用到线性核。 3.2 交叉验证和网格搜索当使用RBF核时有两个参数C和。之前我们并不知道对一个问题哪个C和是最好的；因此必须做某种模型选择（参数选择）。这个目标就是去识别出好的（C，），这样分类器才能准确的预测未知数据。注