如何选择机器学习项目的算法.ppt

下载文档 降价啦

6
0
约5.62千字
约 20页
2017-06-08 发布于湖北
举报
版权申诉
保障服务

如何选择机器学习项目的算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如何选择机器学习项目的算法

虽然大多数特征的有效性需要靠实验来评估，但是了解常见的选取数据特征的方法是很有帮助的。这里有几个较好的方法：主成分分析（Principal componentanalysis，PCA）：一种线性降维方法，可以找出包含信息量较高的特征主成分，可以解释数据中的大多数方差。尺度不变特征变换（Scale-invariant featuretransform，SIFT）：计算机视觉领域中的算法，用以检测和描述图片的局部特征。它有一个开源的替代方法ORB（Oriented FAST and rotated BRIEF）。加速稳健特征（Speeded up robust features，SURF）：SIFT 的更稳健版本。方向梯度直方图（Histogram of orientedgradients，HOG）：一种特征描述方法，在计算机视觉中用于计数一张图像中局部部分的梯度方向的发生。当然，你也可以想出你自己的特征描述方法。如果你有几个候选方法，你可以使用封装好的方法进行智能的特征选择。前向搜索：最开始不选取任何特征。然后选择最相关的特征，将这个特征加入到已有特征；计算模型的交叉验证误差，重复选取其它所有候选特征；最后，选取能使你交叉验证误差最小特征，并放入已选择的特征之中。重复，直到达到期望数量的特征为止！反向搜索：从所有特征开始。先移除最不相关的特征，然后计算模型的交叉验证误差；对其它所有候选特征，重复这一过程；最后，移除使交叉验证误差最大的候选特征。重复，直到达到期望数量的特征为止！使用交叉验证的准则来移除和增加特征！最后，你可能想优化算法的超参数。例如，主成分分析中的主成分个数，k 近邻算法的参数 k，或者是神经网络中的层数和学习速率。最好的方法是使用交叉验证来选择。一旦你运用了上述所有方法，你将有很好的机会创造出强大的机器学习系统。但是，你可能也猜到了，成败在于细节，你可能不得不反复实验，最后才能走向成功。第6步：超参数优化（可选）二项式分类（binomial classification）：适用环境：　各观察单位只能具有相互对立的一种结果，如阳性或阴性，生存或死亡等，属于两分类资料。已知发生某一结果（阳性）的概率为p，其对立结果的概率为1?p，实际工作中要求p是从大量观察中获得比较稳定的数值。 n次试验在相同条件下进行，且各个观察单位的观察结果相互独立，即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。符号：b(x,n,p)概率函数*：Cxnpxqn?x，其中x=0,1,?,n为正整数即发生的次数，Cxn=n!x!(n?x)! 例题：掷硬币试验。有10个硬币掷一次，或1个硬币掷十次。问五次正面向上的概率是多少? 解：根据题意n＝10，p＝q＝12，x＝5　　b(5,l0,12)=C510p5q10=10!(5!(10?5)!)×(12)5×(12)5=252×(132)×(132)=0.2469，所以五次正面向上的概率为0．24609 相关知识?? Support vector machines 是一种监督式学习的方法，可广泛地应用于统计分类以及回归分析。支持向量机属于一般化线性分类器，也可以被认为是提克洛夫规范化（Tikhonov Regularization）方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区，因此支持向量机也被称为最大边缘区分类器。所有的技术选型原理都是类似的，首先需要你的自身知识积累，然后是明确需要解决的问题，即明确需求。接下来确定一个较大的调研范围，进而进一步调研后缩小范围，最后通过实际应用场景的测试挑选出合适的技术方案或者方法。机器学习算法选择，也不例外。总结?? * * * * * * * * * * * * * * * * * * * * 如何选择机器学习项目的算法随着机器学习的进一步火热，越来越多的算法已经可以用在许多任务的执行上，并且表现出色。但是动手之前到底哪个算法可以解决我们特定的实际问题并且运行效果良好，这个答案很多新手是不知道的。如果你处理问题时间可以很长，你可以逐个调研并且尝试它们，反之则要在最短的时间内解决技术调研任务。 Michael Beyeler的一篇文章告诉我们整个技术选型过程，一步接着一步，依靠已知的技术，从模型选择到超参数调整。第1步：了解基本知识?? 在我们深入之前，我们要明确我们了解了基础知识。具体来说，我们应该知道有三个主要的机器学习分类：监督学习（supervised learning）、无监督学习（unsupervised learning），以及强化学习（reinforcement learning）。监