程序员训练机器习 SVM算法.docxVIP

下载本文档

0
0
约6.66千字
约 8页
2017-07-09 发布于贵州
举报
版权申诉

程序员训练机器习 SVM算法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

程序员训练机器习 SVM算法

摘要：支持向量机（SVM）已经成为一种非常受欢迎的算法。本文主要阐述了SVM是如何进行工作的，同时也给出了使用Python Scikits库的几个示例。SVM作为一种训练机器学习的算法，可以用于解决分类和回归问题，还使用了kernel trick技术进行数据的转换，再根据转换信息在可能的输出之中找到一个最优的边界。【CSDN报道】支持向量机（Support Vector Machine）已经成为一种非常受欢迎的算法。在这篇文章里，Greg Lamp简单解释了它是如何进行工作的，同时他也给出了使用Python Scikits库的几个示例。所有代码在Github上都是可用的，Greg Lamp以后还会对使用Scikits以及Sklearn的细节问题进行更深一步的阐述。CSDN对本篇技术性文章进行了编译整理：SVM是什么？SVM是一种训练机器学习的算法，可以用于解决分类和回归问题，同时还使用了一种称之为kernel trick的技术进行数据的转换，然后再根据这些转换信息，在可能的输出之中找到一个最优的边界。简单来说，就是做一些非常复杂的数据转换工作，然后根据预定义的标签或者输出进而计算出如何分离用户的数据。是什么让它变得如此的强大？当然，对于SVM来说，完全有能力实现分类以及回归。在这篇文章中，Greg Lamp主要关注如何使用SVM进行分类，特别是非线性的SVM或者SVM使用非线性内核。非线性SVM意味着该算法计算的边界没有必要是一条直线，这样做的好处在于，可以捕获更多数据点集之间的复杂关系，而无需靠用户自己来执行困难的转换。其缺点就是由于更多的运算量，训练的时间要长很多。什么是kernel trick？kernel trick对接收到的数据进行转换：输入一些你认为比较明显的特征进行分类，输出一些你完全不认识的数据，这个过程就像解开一个DNA链。你开始是寻找数据的矢量，然后把它传给kernel trick，再进行不断的分解和重组直到形成一个更大的数据集，而且通常你看到的这些数据非常的难以理解。这就是神奇之处，扩展的数据集拥有更明显的边界，SVM算法也能够计算一个更加优化的超平面。其次，假设你是一个农场主，现在你有一个问题——你需要搭建一个篱笆来防止狼对牛群造成伤害。但是篱笆应该建在哪里呢？如果你是一个以数据为驱动的农场主，那么你就需要在你的牧场上，依据牛群和狼群的位置建立一个“分类器”，比较这几种（如下图所示）不同的分类器，我们可以看到SVM完成了一个很完美的解决方案。Greg Lamp认为这个故事漂亮的说明了使用非线性分类器的优势。显而易见，逻辑模式以及决策树模式都是使用了直线方法。实现代码如下：farmer.py Python import numpy as npimport pylab as plfrom sklearn import svmfrom sklearn import linear_modelfrom sklearn import tree import pandas as pddefplot_results_with_hyperplane(clf, clf_name, df, plt_nmbr): x_min, x_max = df.x.min() - .5, df.x.max() + .5 y_min, y_max = df.y.min() - .5, df.y.max() + .5 # step between points. i.e. [0, 0.02, 0.04, ...] step = .02 # to plot the boundary, were going to create a matrix of every possible point # then label each point as a wolf or cow using our classifier xx, yy = np.meshgrid(np.arange(x_min, x_max, step),np.arange(y_min, y_max, step)) Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) # this gets our predictions back into a matrix ZZ = Z.reshape(xx.shape) # create a subplot (were going to have more than 1 plot on a given image) pl.subplot(2, 2, plt_nmbr) # plot the boundaries pl.pcolormesh(xx, yy,