研究生特色精品课程-机器学习-实验室.ppt

下载文档 降价啦

93
0
约2.37万字
约 149页
2017-04-14 发布于天津
举报
版权申诉
保障服务

研究生特色精品课程-机器学习-实验室.ppt

1、本文档共149页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * 当剔除第k个分类器后，如果满足，即上式得到满足时，集成的泛化误差不会增大，反而可能减少，新集成的效果会比原集成更好。应被剔除的个体学习器所需满足的条件为 : 综上可知，集成学习用于分类任务时，当产生多个个体分类器之后，从中选择一部分进行集成可能比使用所有分类器进行集成效果更好。通过上面两种情况的分析讨论可知，在集成学习训练出若干个体学习器后，无论是回归问题还是分类问题，我们对其进行选择操作，剔除部分不利于集成泛化误差减小的个体分类器，使用剩余学习器进行集成可望比使用所有学习器进行集成获得更好的泛化性能。一个极端的例子就是当所有的个体分类器都相同时，我们可以大幅减少集成的规模，但其泛化能力不变。 10.3 GASEN 尽管从理论上说，对于回归和分类问题，可以根据上述方法实现集成时分类器的选择，但对于现实世界中的问题，其计算量往往是极大、甚至是不可行的，并且对于多个输出变量和多类别问题情况还要复杂的多。因此，周志华等学者在提出选择性集成的思想以后，为了验证选择性集成的可行性与正确性，提出了GASEN(Genetic Algorithm based Selecte Ensemble)算法，通过遗传算法来确定所需剔除的学习器，并取得了良好的效果。 GASEN算法首先通过bootstrap技术产生一系列的学习器，然后为各学习器指派一个可反映它们在组成集成时重要性的权重系数，将这些权重系数组成一个向量作为遗传种群中的个体进行进化，最后根据求出的最优权向量的权值来确定应该被剔除的学习器(如权值小于某个λ值入的学习器被剔除)。 GASEN算法伪代码输入：训练集D = {(x1; y1),(x2; y2),...,(xm; ym)}；基础学习器L；训练循环轮数T；门限λ For t= 1,...,T 由原样本集D生成本次迭代的样本集Dt=Bootstrap(D); 由样本生成神经网络Nt = L(Dt) 结束循环生成权向量的种群对种群进行进化(权向量w的适应度由度量) 得到进化后的最佳权向量w* 得到的集成后输出N*：回归任务分类任务图4.7 GASEN算法流程图 10.4 选择性集成的发展在选择性集成的实现方法上，自GASEN算法之后又出现了很多其它的方法，例如wu等人在GASEN的基础上又提出了e-GasEN李凯等通过聚类算法进行选择使得选择性集成算法的速度得到了大幅的提高;Castro等使用人工免疫算法进行选择，也取得了较好的效果;文献[90]中提出了一种simAnn算法，并提到如果将这种算法与GASEN算法结合相信会产生更强的算法;王丽丽在文献[91]中将蚁群优化算法用于选择性集成，提出了ACOSEN算法，使得集成的准确率、时间效率和集成规模三个方面都取得了显著提高;同样，傅强将两种高性能全局的优化算法—粒子群优化(PSO)和蚁群优化(ACO)算法应用于选择性神经网络集成，分别提出了基于离散二进制粒子群优化(BPSO)的神经网络优选集成方法和基于蚁群优化的神经网络优选集成算法。在选择性集成的应用上，周志华等人将选择性集成的思想应用到人脸识别领域，提出了SEME(selective Ensemble of Multiple Eigenspaces)算法，并对本征脸、本征特征、本征脸+本征特征、SEME等方法进行了实验比较，发现SEME方法的识别效果明显优于其它方法。同时，SEME还揭示出了另外一些重要信息，如眼、鼻之间空间位置分布的重要性、眉毛的重要性等，这也为新的人脸算法的设计提供一些重要的启示。此外，在文献[93]中将选择性集成用于聚类，在文献[94]中将选择性集成用于时序预测，均获得了较好的效果。 11 集成学习的应用较早期的应用来自国外研究者在字符识别方面的应用研究。Drucker等采用多层前向神经网络作为弱学习器，网络的隐层数以及隐层节点数随着数据库的不同而不同，对四种不同的手写体数据库，分别是来自美国邮电部门(USPS)的12000个邮政编码、来自美国国家标准和技术协会NIST的220000个数字、45000个大写字母以及45000个小写字母，经过3次迭代学习后采用投票的方式生成一个集成的分类器，试验结果显示集成的分类器与单个神经网络相比识别效果大大提高, 测试误差最小降低了17%，最大降低了43%。在文献[96]中，Freund和Schapire还以近邻分类器作为弱学习器，