专题八_启发式算法及网格搜索_赵承业t.ppt

下载文档 降价啦

90
0
约2.17万字
约 102页
2018-03-12 发布于河南
举报
版权申诉
保障服务

专题八_启发式算法及网格搜索_赵承业t.ppt

1、本文档共102页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

专题八_启发式算法及网格搜索_赵承业t

2012国赛集训专题一 2013数学建模集训专题八算法专题内容交叉验证与网格搜索贪婪算法模拟退火算法交叉验证与网格搜索在实际问题中，我们经常会遇到根据经验数据和实验（测试）数据确定模型参数问题确定参数问题可以结合网格搜索和交叉验证的方法来进行首先我们介绍交叉验证和网格搜索的相关知识交叉验证交叉验证（Cross validation）是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力（generalize），能够避免过拟合问题。交叉验证一般要尽量满足： 1）训练集的比例要足够多，一般大于一半 2）训练集和测试集要均匀抽样交叉验证1-Double cross-validation Double cross-validation也称2-fold cross-validation(2-CV)，作法是将数据集分成两个相等大小的子集，进行两回合的分类器训练。在第一回合中，一个子集作为训练集，另一个作为测试集；在第二回合中，则将训练集与测试集对换后，再次训练分类器，而其中我们比较关心的是两次测试集的识别率。在实际中2-CV并不常用，主要原因是训练集样本数太少，通常不足以代表母体样本的分布，导致测试阶段识别率容易出现明显落差。此外，2-CV中子集的变异度大，往往无法达到「实验过程必须可以被复制」的要求。交叉验证2-k-folder cross-validation(k折交叉验证) K-fold cross-validation (k-CV)则是Double cross-validation的延伸，做法是将数据集分成k个子集，每个子集均做一次测试集，其余的作为训练集。k-CV交叉验证重复k次，每次选择一个子集作为测试集，并将k次的平均交叉验证识别率作为结果。优点：所有的样本都被作为了训练集和测试集，每个样本都被验证一次。10-folder通常被使用。交叉验证3-leave-one-out cross-validation(LOOCV留一验证法) 假设数据集中有n个样本，那LOOCV也就是n-CV，意思是每个样本单独作为一次测试集，剩余n-1个样本则做为训练集。优点： 1）每一回合中几乎所有的样本皆用于训练model，因此最接近母体样本的分布，估测所得的generalization error比较可靠。因此在实验数据集样本较少时，可以考虑使用LOOCV。 2）实验过程中没有随机因素会影响实验数据，确保实验过程是可以被复制的。但LOOCV的缺点则是计算成本高，为需要建立的models数量与总样本数量相同，当总样本数量相当多时，LOOCV在实作上便有困难，除非每次训练model的速度很快，或是可以用平行化计算减少计算所需的时间。网格搜索例如：确定支持向量机的参数，使用“网格搜索”来寻找最优的C和g。所谓的网格搜索就是尝试各种可能的(C, g)对值，然后进行交叉验证，找出使交叉验证精确度最高的(C, g)对。 “网格搜索”的方法很直观但是看起来有些原始。事实上有许多高级的算法，比如可以使用一些近似算法或启发式的搜索来降低复杂度。但是我们倾向于使用“网格搜索”这一简单的方法 1）从心理上讲，不进行全面的参数搜索而是使用近似算法或启发式算法让人感觉不安全。 2）如果参数比较少，“网格搜索”的复杂度比高级算法高不了多少。 3）“网格搜索”可并行性高，因为每个(C, g)对是相互独立的。网格搜索其实“网格搜索”就是n层循环，n是参数个数，仍然以RBF核为例，编程实现如下： for(double c=c_begin;cc_end;c+=c_step) { for(double g=g_begin;gg_end;g+=g_step) { //这里进行交叉验证，计算精确度。 } } 通过上述两层循环找到最优的C和g就可以了。网格搜索的例子-储油罐变位参数的确定　　　为了得到实验所用储油罐的纵向偏转角与横向偏转角，我们用最小二乘法对题中一次性进油之前的数据进行了拟合。　　　将题给附表2中每一个高度值代入（8）式，可以得到理论储油量。则每次输出油量的理论值为：　　　（24）　　　由题给附表2中数据，我们可以直接得到每次加入油量的实际值，。　　　我们将偏转角与的求解转化为最优化问题，即建立实际油量和理论油量差值的平方组成的目标函数，通过极小化该目标函数得到与的解，如式（24）。　　（25）网格搜索的例子-储油罐变位参数的确定　　在用网格搜索法寻找最优参数的过程中，为了兼顾搜索速度和搜索精度，我们采用逐步细化的方法，保持搜索步长不变，减少每次搜索范围的长度，在搜索到较优的周围